Локална вештачка интелигенција у мобилном НПУ-у: шта заправо ради и колико далеко иде

  • NPU мобилног SoC-а је специјализовани акцелератор неуронске мреже који допуњује CPU и GPU, нудећи веће перформансе по вату у AI задацима.
  • Локална вештачка интелигенција смањује латенцију и побољшава приватност обрадом података на уређају, али је ограничена РАМ меморијом, топлотом, батеријом и величином модела које може да обради.
  • Произвођачи интегришу све моћније неуронске процесоре (НПУ) у мобилне телефоне, рачунаре и аутомобиле, али многе апликације и даље не користе њихове предности у потпуности, тако да ЦПУ и ГПУ настављају да обављају већину посла.
  • Непосредна будућност подразумева хибридни модел: део вештачке интелигенције ради локално на NPU-у, а део у облаку, балансирајући брзину, квалитет модела и потрошњу.

Локална вештачка интелигенција у мобилном НПУ-у

Идеја о постојању модела Моћна вештачка интелигенција која ради директно на мобилном телефону Бити без облака звучи сјајно... док то заправо не испробате. Ако имате Galaxy S24 Ultra, преузмете моделе попут Qwen 3.5 4B и покренете их са апликацијама попут PocketPal, Offgrid или ChatterUI, суочићете се са мање гламурозном стварношћу: 4 токена у секундиВечна времена док се не види први токен, прегревање терминала и осећај да ваш супер SoC није ни близу стискања свог NPU-а како је маркетинг обећао.

Истовремено, сектор стално говори о НПУ, локална вештачка интелигенција, Копилот рачунар, Епл неуронски мотор И тако даље. Произвођачи годинама пакују акцелераторе вештачке интелигенције у своје SoC-ове, како у телефонима тако и у лаптоповима, уверавајући нас да су они будућност персоналног рачунарства. Проблем је што се са толико скраћеница и обећања лако изгубити: шта тачно ради NPU телефона? Зашто се чини да CPU понекад боље ради? Када има смисла користити вештачку интелигенцију засновану на облаку, а када се исплати ослањати на локалну вештачку интелигенцију?

Шта је тачно NPU у мобилном SoC-у и какву улогу игра у локалној вештачкој интелигенцији?

У модерном паметном телефону, такозвани „процесор“ је заправо СоЦ (систем на чипу)На истом силицијумском чипу наћи ћете процесор, графички процесор, интернет провајдер, модем, безбедносне јединице… и, већ неколико година, неуронски процесор или неуронски механизам посвећен вештачкој интелигенцији. Он не замењује процесор или графички процесор: он их допуњује за веома специфичну врсту посла.

НПУ (Јединица за неуронску обрадуТо је хардверски блок дизајниран за покретање неуронских мрежа масивном брзином: хиљаде операција множења и сабирања паралелно, са подацима мале прецизности (INT8, FP16, чак и INT4) и са веома малом меморијом како би се избегло губљење времена на померање тежина и активација. Не може да „ради по мало од свега“ као процесор, али оно што може да уради, ради са бруталном ефикасношћу.

Та специјализација се савршено уклапа са скоро свим што данас разумемо као вештачку интелигенцију: рачунарски видПрепознавање говора, класификација слика, превод, моделирање језика и, генерално, свака модерна неуронска мрежа. Уместо преоптерећења процесора или укључивања графичке картице (GPU) за сваки задатак вештачке интелигенције, систем шаље те операције неуронској јединици (NPU), која их обавља са мање енергије и мање топлоте.

У ствари, већина великих произвођача описује своје NPU на тај начин. Qualcomm говори о више перформанси по вату за радна оптерећења вештачке интелигенције; Хуавеј га продаје као кључ за обављање више задатака за мање времена без пражњења батерије; Епл га дефинише као механизам сличан ГПУ-у за убрзавање конволуција и множења матрица; АМД и Интел га интегришу у своје процесоре како би растеретили задатке вештачке интелигенције са ниском потрошњом енергије, док Самсунг инсистира да је његов НПУ оптимизован за истовремене матричне операције и континуирано учење са акумулираним подацима.

НПУ-ови: ни нови нити ексклузивни за мобилне уређаје

Може изгледати да је НПУ-ови су се појавили ниоткуда Уз пуну помпу око генеративне вештачке интелигенције, стварност је да живимо са њом у џепу скоро деценију, а да тога ни не схватамо. Године 2017, Apple је објавио iPhone X са Face ID-ом и Animoji-јем захваљујући свом A11 Bionic чипу, који је већ имао наменски „неуронски механизам“, иако је мало ко обраћао пажњу на име у то време.

Од тада, Apple надувава тај Apple Neural Engine генерацију за генерацијом. ANE iPhone X-а је био око... 0,6 TOPS (трилиона операција у секунди) у FP16. Данас, A17 Pro у iPhone 15 Pro има око 35 TOPS, а M4 чип за iPad и Mac иде до око 38 TOPS. То јест, за неколико година смо прешли са „токен“ неуронског мотора на онај који може да покреће моделе које смо раније виђали само у дата центрима.

Гугл је урадио нешто слично са своје стране са ТПУ (Тензор Процессинг Унит)Прво у својим дата центрима са џиновским чиповима за тренирање неуронских мрежа, а затим у Pixel телефонима са Google Tensor породицом (Pixel 6, 7, 8…). Тамо интегришу TPU/NPU у SoC како би у сам уређај угурали камеру, глас и, све више, генеративне вештачке интелигенције.

У свету рачунара, Intel и AMD су морали да подигну своју игру. Intel укључује NPU-ове у своје Core Ultra (Meteor Lake) процесоре, са око 8-12 TOPS-а, док је AMD дебитовао са Ryzen AI у својим Ryzen 7040 лаптоп процесорима, са до 10 TOPS-а, па је чак достигао 39 TOPS-а NPU-а у краткој серији Ryzen 8000 десктоп процесора. Идеја је иста: довођење вештачке интелигенције до границе и да не зависе толико од облака за све.

Како функционише НПУ: зашто је тако добар за вештачку интелигенцију... а тако лош за све остало

Ако ментално отворимо чип, NPU више личи на фабрика множења матрица него класични процесор. Уместо неколико веома свестраних језгара, има десетине хиљада једноставних АЛУ распоређених у матрицу или мрежу, способних да паралелно извршавају производе „множења-акумулирања“ (MAC), често са ниском прецизношћу.

Нокиа предвиђа нестанак мобилних телефона пре 2030. године

Цака је у томе да се ове јединице организују као нека врста систоличка матрицаПодаци улазе на једној страни, прелазе из ћелије у ћелију, и свака ћелија обавља своју малу операцију пре него што проследи резултат следећој. Ово минимизира приступе главној меморији и максимизира коришћење MAC јединица, што је управо оно што је неуронској мрежи потребно приликом закључивања.

Да би се постигла ова ефикасност, NPU се одриче многих карактеристика које чине CPU или GPU скупљим: недостаје му сложена логика предвиђања грана, разрађен систем кеш меморије и подршка за све инструкције опште намене. Његов ISA је обично минималан. DMA за премештање података, производа тачака, сума, активација и мало тога другог.

Он такође свира са нумеричка прецизностДок традиционални CPU или GPU удобно раде у 32-битним или 64-битним јединицама са покретним зарезом, NPU обично ради у INT8, FP16, па чак и INT4. За обучену неуронску мрежу, овај ниво прецизности је довољан да пружи одличне резултате, омогућавајући знатно више операција по циклусу са много мањом енергијом по операцији.

CPU, GPU, NPU и TPU: ко шта ради у вештачкој интелигенцији

Процесор остаје „општи мозак“: он управља оперативним системом, координира задатке и извршава контролну логику. Способан је да покреће мале моделе, али када му затражите да рукује великом мрежом или одржава континуирано генерисање текста, постаје уско грло у латенцији и потрошњи енергије.

ГПУ је радна снага за дубоко учењеВеома добро преводи рад рендеровања графике (многе сличне операције на великим векторима) у тренирање и покретање неуронских мрежа. Модерни графички процесори такође укључују тензорска језгра специфичних који се у пракси понашају као мали NPU-ови унутар самог GPU-а.

С друге стране, NPU је дизајниран искључиво за вештачку инференцију. Није погодан за игре, рендеровање интерфејса или компајлирање кода, али је идеалан за покретање мрежа за видео, глас или језик са енергетском ефикасношћу коју GPU не може да постигне у мобилном телефону или ултралаком лаптопу.

Гуглови ТПУ-ови су блиски рођаци: ASIC-ови су се фокусирали на тензорске операције како би убрзали вештачку интелигенцију модела, посебно у својим центрима података. На пример, Edge ТПУ на Coral Dev Board-у нуди неке 4 ТОП-а са само неколико ватиИдеално за камере и IoT уређаје којима је потребан рачунарски вид у реалном времену без прегревања или превише потрошње енергије.

Укратко, идеална комбинација у модерном уређају је: CPU за општу логику, GPU за графичка оптерећења и флексибилно паралелно рачунарство и NPU/TPU за неуронске мрежеСваки ради своју ствар, а када је софтвер добро написан, систем распоређује посао прилично интелигентно.

Вештачка интелигенција у облаку наспрам локалне вештачке интелигенције: брзина, приватност и цена

До скоријег времена, скоро све што смо повезивали са „моћном вештачком интелигенцијом“ дешавало се у облаку: ChatGPT, Gemini, Stable Diffusion, напредни асистенти… Мобилни телефони су деловали само као глупи терминал који је слао податке и примао обрађени одговор на серверу пуном графичких или термопроцесорских јединица (GPU).

Ова архитектура има очигледну предност: можете покретати гигантске моделе без бриге о потрошњи енергије крајњег корисника. Јефтин уређај ниже класе и врхунски водећи модел добијају исти резултат, јер процесор обавља тешки посао. центар података са наменским хардвером.

Али такође има значајне недостатке. латенција То у потпуности зависи од везе: ако имате лошу покривеност, налазите се у авиону или у граду са непоузданим ADSL-ом, многе функције престају да буду „магичне“ и постају потпуно бескорисне. Штавише, сваки захтев захтева слање података трећим лицима и поверење да ће бити исправно обрађени.

Цлоуд стораге

Локална вештачка интелигенција игра управо супротну игру: донесите модел на уређај и покренути закључивање на сопственом процесору, графичкој карти или неуронској процесорској јединици уређаја. Ово елиминише латенцију мреже, омогућава офлајн вештачку интелигенцију и, што је најважније, чини је ваши подаци не морају да напусте телефон, лаптоп или ауто, осим ако га не желите.

Међутим, локална вештачка интелигенција је ограничена оним што хардвер може да обради: RAM, VRAM, топлотна снага, батеријаМодел са 70.000 милијарди параметара данас не може удобно да стане на телефон; морамо да прибегнемо смањеним, квантизованим и високо оптимизованим верзијама ако желимо нешто флуидно и одрживо.

Мобилни НПУ-ови: од камере до асистента, укључујући локалне ЛЛМ-ове

У свету паметних телефона, неуронске јединице (НПУ) годинама тихо раде на свему што је везано за... мобилна фотографија и видео, препознавање лица, глас и превод. Произвођачи су додавали функције поред тога.

У Apple екосистему, Neural Engine се бави Face ID-ом, детекцијом лица и објеката у галерији, диктирањем, преводом уживо, препознавањем текста на сликама, проширеном стварношћу (AR) и читавим низом других задатака које узимамо здраво за готово. Са A16, A17 и породицом M3/M4, Apple почиње да прави потезе како би... Сири и друге генеративне вештачке интелигенције раде на самом уређају без толико зависности од облака, користећи предности тих 30-40 ТОПС-ова неуронског мотора.

Гугл, са својим Tensor G2 и G3 телефонима, ради нешто слично у Pixel-у. Pixel 8, са својим Интегрисани ТПУ, може да покреће смањене верзије модела као што су PaLM 2 или Гемини Нано на уређају за задатке као што су превођење, читање веб страница наглас, локални резимеи, глађе куцање гласом или трикови са камером попут Best Take и Audio Magic Eraser, све са чипом који ради без сталне потребе за слањем података на своје сервере.

Qualcomm, са своје стране, користи Hexagon NPU моторе у Snapdragon серији већ неколико генерација. Snapdragon 8 Gen 3 се може похвалити NPU-ом који је 98% бржи од Gen 2 и способан да покреће LLM-ови до 10.000 милијарди параметара на самом мобилном уређају, са јавним демонстрацијама стабилне дифузије која генерише слике великом брзином и Лама 2 или Лама 3 која ради потпуно ван мреже.

МедиаТек не заостаје много са својим АПУ-овима (АИ процесорским јединицама) у Дименсити серији, достижући задатке као што је то случај са шестом генерацијом АПУ-ова. Ремастеровање фотографија помоћу вештачке интелигенције у реалном времену у мобилним телефонима попут Oppo Find X8, и указујући на чињеницу да ће иста NPU технологија доћи у телевизоре, IoT, па чак и аутомобиле.

Шта се дешава у рачунарима и аутомобилима са неуронским јединицама (НПУ)

У области рачунара, Мајкрософт је покренуо категорију „Рачунар са вештачком интелигенцијом“ Ослањајући се на НПУ интегрисане у Intel, AMD и Qualcomm SoC-ове, Intel Core Ultra (Meteor Lake) укључује НПУ од око 8-12 TOPS-а како би убрзао функције Windows 11 као што су замућење позадине, синтетички контакт очима, смањење шума и, у будућности, делове Copilot-а.

AMD је дебитовао са Ryzen AI у Ryzen 7040 серији за лаптопове и, накратко, у Ryzen 8000 серији десктоп рачунара са NPU-ом до 39 TOPS-а. Иако је тај приступ поново прилагођен, порука је јасна: Рачунар будућности ће увек имати посебан блок за вештачку интелигенцију., баш као што годинама има интегрисану графичку картицу.

У аутомобилској индустрији, ствари постају много напредније. Тесла има две генерације хардвера за потпуно самосталну вожњу са двоструким NPU-има: HW3 је имао око 144 TOPS, а HW4 око 200-250 TOPS, све за обраду сигнала у реалном времену са мноштва камера и сензора и покретање неуронских мрежа које доносе одлуке о вожњи за неколико милисекунди.

NVIDIA, са својом Drive Thor платформом, прави још један корак: један чип може достићи до 1000 TOPS, или 2000 TOPS са два повезанаДизајниран је да централизује и аутономну вожњу и вештачку интелигенцију у кабини (гласовни асистенти, праћење возача, забава итд.). Филозофија је иста: што више вештачке интелигенције желите да интегришете у аутомобил у реалном времену, то више смисла има посебна папучица гаса у возилу.

Поред приватних аутомобила, НПУ-ови такође владају у безбедносним камерама, дроновима и роботима: уређаји попут Hailo-8 (26 TOPS са малом снагом) или Интеловог Myriad-а и Гугловог Edge TPU-а омогућавају... рачунарски вид на ивици без преоптерећења мрежа или дата центара.

Локална вештачка интелигенција на „правом“ мобилном телефону: PocketPal, MNN Chat и други

mnn-chat

Поред функција које је одредио произвођач, све је више корисника који желе покрените сопствене језичке моделе локално На вашем мобилном уређају, без коришћења ChatGPT-а, Gemini-ја или сличних апликација. Ту долазе до изражаја апликације попут PocketPal-а, Offgrid-а, ChatterUI-ја или MNN Chat-а.

PocketPal је један од најприступачнијих. Омогућава вам да преузмете моделе отвореног кода (Llama, Gemma, Phi, Qwen, Mistral…) у компактним форматима попут GGUF-а и покренете их директно на телефону, офлајн. тотална приватностУпити и одговори никада не напуштају уређај. Све што вам је потребно је релативно модеран Андроид или иОС мобилни телефон, неколико 6-8 GB RAM-a и неколико гигабајта слободног простора за моделе.

У пракси, модели са параметрима између 1B и 4B (као што су Qwen2.5-1.5B, Llama 3.2 3B или Qwen3-4B-Instruct) раде прилично добро на телефонима средње класе. Међутим, типичне перформансе су обично између 5 и 20 токена у секунди у врхунским, а још мање у нижим верзијама, далеко од онога што се може постићи на серверу са професионалним графичким процесором.

Да би се извукле додатне перформансе, на iPhone-у је препоручљиво користити Metal и повећати број GPU слојева; на Android-у, неке апликације почињу да користе ову предност. Вулкан, ГПУ и, у ретким приликама, НПУ преко ННАПИ-јаУпркос томе, у многим од ових решења прави терет и даље пада на CPU и GPU, а NPU остаје недовољно искоришћен јер софтверски слој није зрео.

Случај MNN Chat-а је илустративан: то је једна од најбржих апликација коју су многи корисници испробали на S24 Ultra, али по цену коришћења високо квантизованих модела, са извесним жртвовањем у квалитету, и без јасног појашњења да ли у потпуности користи Snapdragon NPU или „само“ веома добро оптимизује CPU/GPU руту.

Зашто ваш S24 Ultra не извлачи 100% из свог NPU-а са Qwen 3.5 4B

Иако на папиру SoC S24 Ultra или S25 Ultra може да обради моделе са до 10 милијарди параметара и више од 40 TOPS AI прорачуна, када инсталирате LLM као што је Qwen 3.5 4B у генеричкој апликацији, обично се дешава иста ствар: Брзо се покреће, затим се загрева, перформансе падају и стабилизује се знатно испод очекивања..

Главни разлог је тај што се у већини апликација трећих страна модел покреће на процесору или графичкој картици користећи библиотеке опште намене (BLAS, Vulkan, Metal) без директног, детаљног приступа неуронској процесорској јединици (NPU) SoC-а. На мобилним уређајима, NPU је обично изложен путем API-ја као што су NNAPI на Android-у или Core ML на iOS-у, али нису сви локални LLM оквири добро интегрисани са њима, а подршка произвођача варира.

Резултат је да једноставан тест, попут оног који је Nexa AI показао са врхунским Galaxy-јем који генерише континуирани текст, јасно показује понашање: ако се све ослања на CPU, у почетку број токена у секунди је веома високАли у року од неколико минута температура расте, систем смањује фреквенције како би избегао прекорачење термалног лимита, а перформансе падају на много скромнији, али одрживији ниво.

Када се радно оптерећење заиста пребаци на NPU, профил се мења: на почетку се не види тако спектакуларан скок, али се види много већа производња токена. равно и стабилно током временаса нижом температуром и мањим утицајем на трајање батерије. Проблем је, од данас, како натерати локалну LLM апликацију да беспрекорно комуницира са тим NPU-ом.

Штавише, постоје и друга физичка ограничења која се не могу решити софтвером: количина доступне РАМ меморије, пропусни опсег меморије SoC-а и сама величина модела. Код мобилних уређаја, „зона удобности“ за LLM је обично у квантизовани модели величине око 3-4 GBИзнад тога, време учитавања, потрошња и ограничавање брзине се скоро увек повећавају.

Стога, иако маркетинг чипова попут Snapdragon 8 Gen 3 или 8 Gen 4 говори о „10B LLM-ова на уређају“, у пракси корисничко искуство са тешким моделима отвореног кода остаје деликатно, посебно ако апликација није дизајнирана од нуле да извуке максимум из NPU-а користећи званичне SDK-ове произвођача.

Предности и мане локалне вештачке интелигенције на мобилним уређајима

Како побољшати покривеност мобилном мрежом у подручјима са слабим сигналом

Локално покретање вештачке интелигенције на мобилним уређајима је изузетно привлачно. За почетак, ПриватностАко је модел на телефону и нема позива ка екстерним серверима, све што му кажете остаје тамо. Ово је непроцењиво за осетљиву употребу (личне белешке, медицински подаци, интерна документа компаније итд.).

La латенција Такође иде у вашу корист: нисте зависни од мреже, тако да текстуални резиме, брзи превод или мало образложења стиже брзо колико чип дозвољава, где год да се налазите. Чак и у метроу без сигнала или на путовању без интернета, и даље имате функционалног асистента.

Штавише, у великим размерама, пребацивање посла из облака смањује трошкове. Није исто као када милиони корисника упућују сваки упит кластеру плаћених графичких процесора као што је премештање неких од тих захтева на... НПУ-ови који су већ платили приликом куповине мобилног телефонаЗато компаније попут Qualcomm-а, MediaTek-а и Apple-а толико снажно промовишу вештачку интелигенцију у уређајима.

Путарина је на другој страни. батерија и температура Пате ако прекомерно користите тешке моделе, квалитет мањих модела још увек не достиже ниво GPT-4 или Gemini Ultra, а искуство може бити недоследно ако је софтвер још увек у раним фазама: падови система, модели који се не учитавају, фрустрирајуће дуго време до првог токена…

Зато се многи брендови кладе на модел хибридниЈедноставни, брзи и брзи задаци (основни преводи, исправка текста, одређене измене фотографија и пречице) се обрађују директно на мобилном уређају, док се сложенији захтеви или они који захтевају врхунски процесор шаљу у облак. Ово ствара беспрекорно и приватно искуство без жртвовања могућности моћнијих уређаја када је то потребно.

На крају крајева, улога NPU-а је да све ово функционише: без високо ефикасног AI језгра у SoC-у, локална AI би била повремени луксуз који би испразнио батерију за неколико минута. Са зрелим NPU-ом и добрим софтвером, то постаје беспрекорна функција која ради у позадини на вашем телефону, рачунару или аутомобилу док једноставно видите како све реагује брже и интелигентније.

С обзиром на овај сценарио, осећај је јасан: вештачка интелигенција више не живи само у облаку или само на серверима великих технолошких компанија, већ је слеће директно у ваш џеп и на ваш стоНеуронски процесор (НПУ) мобилног SoC-а није само за приказивање: то је тихи мотор који чини ту локалну вештачку интелигенцију разумно брзом, корисном и приватном, иако нам је и даље потребан скок у софтверу и екосистему како би свако могао да извуче максимум из тога без мучења главе или задовољавања са 4 токена у секунди.


Можда ће вас занимати:
Koje su najvažnije karakteristike pri izboru novog mobilnog telefona?