
Ideja o modelu Zmogljiva umetna inteligenca, ki deluje neposredno na mobilnih napravah Biti brez oblaka se sliši odlično ... dokler tega dejansko ne preizkusite. Če imate Galaxy S24 Ultra, prenesete modele, kot je Qwen 3.5 4B, in jih zaženete z aplikacijami, kot so PocketPal, Offgrid ali ChatterUI, boste naleteli na manj glamurozno resničnost: 4 žetonov na sekundoVečni časi do prvega žetona, pregrevanja terminala in občutka, da vaš super SoC niti približno ne stiska svojega NPU-ja, kot je obljubljal marketing.
Hkrati pa sektor nenehno govori o Neuralni procesor, lokalna umetna inteligenca, računalnik Copilot, Appleov nevronski mehanizem In tako naprej. Proizvajalci že leta v svoje sisteme na čipu vgrajujejo pospeševalnike umetne inteligence, tako v telefone kot prenosnike, in nas prepričujejo, da so prihodnost osebnega računalništva. Težava je v tem, da se je ob toliko akronimih in obljubah enostavno izgubiti: kaj točno počne nevronska procesna enota (NPU) telefona? Zakaj se zdi, da CPU včasih deluje bolje? Kdaj je smiselno uporabljati umetno inteligenco v oblaku in kdaj se je vredno zanašati na lokalno umetno inteligenco?
Kaj točno je NPU v mobilnem SoC in kakšno vlogo igra v lokalni umetni inteligenci?
V sodobnem pametnem telefonu je tako imenovani "procesor" pravzaprav SoC (sistem na čipu)Na istem silicijevem čipu boste našli CPU, GPU, ponudnik internetnih storitev, modem, varnostne enote ... in že nekaj let tudi NPU ali nevronski mehanizem, namenjen umetni inteligenci. Ne nadomešča CPU ali GPU: dopolnjuje ju za zelo specifično vrsto dela.
Nenuklearna enota (Enota za nevronsko obdelavoGre za strojno opremo, zasnovano za zagon nevronskih mrež z ogromno hitrostjo: na tisoče operacij množenja in seštevanja vzporedno, z nizko natančnimi podatki (INT8, FP16, celo INT4) in z zelo omejenim pomnilnikom, da se izognemo izgubi časa s premikanjem uteži in aktivacij. Ne more "narediti vsega po malem" kot CPU, toda kar zmore, počne z brutalno učinkovitostjo.
Ta specializacija se odlično ujema s skoraj vsem, kar danes razumemo kot umetno inteligenco: računalniški vidPrepoznavanje govora, razvrščanje slik, prevajanje, modeliranje jezika in na splošno vsaka sodobna nevronska mreža. Namesto da bi preobremenil CPU ali vklopil GPU za vsako nalogo umetne inteligence, sistem te operacije pošlje NPU-ju, ki jih izvede z manj energije in manj toplote.
Pravzaprav večina večjih proizvajalcev opisuje svoje NPU s temi izrazi. Qualcomm govori o večja zmogljivost na vat za delovne obremenitve umetne inteligence; Huawei ga prodaja kot ključ do več dela v krajšem času brez praznjenja baterije; Apple ga opredeljuje kot mehanizem, podoben grafičnemu procesorju, za pospeševanje matričnih konvolucij in množenja; AMD in Intel ga integrirata v svoje procesorje, da razbremenita nizkoenergijske naloge umetne inteligence, medtem ko Samsung vztraja, da je njegov nevronski procesor (NPU) optimiziran za sočasne matrične operacije in nenehno učenje z zbranimi podatki.
Neuralni procesorji: niso novi niti ekskluzivni za mobilne naprave
Morda se zdi, da NPU-ji so se pojavili iznenada Glede na vznemirjenje, ki obkroža generativno umetno inteligenco, je realnost taka, da jo že skoraj desetletje nosimo v žepih, ne da bi se tega sploh zavedali. Leta 2017 je Apple izdal iPhone X s Face ID in Animoji, zahvaljujoč svojemu čipu A11 Bionic, ki je že imel namenski "nevronski mehanizem", čeprav je takrat le malo ljudi posvečalo pozornost imenu.
Od takrat Apple generacijo za generacijo napihuje Apple Neural Engine. ANE iPhona X je bil približno ... 0,6 TOPS (trilijonov operacij na sekundo) v FP16. Danes ima A17 Pro v iPhonu 15 Pro približno 35 TOPS, čip M4 za iPad in Mac pa gre do približno 38 TOPS. To pomeni, da smo v nekaj letih prešli iz "žetonskega" nevronskega motorja na takšnega, ki lahko poganja modele, ki smo jih prej videli le v podatkovnih centrih.
Google je na svoji strani storil nekaj podobnega z TPU (enota za obdelavo tenzorjev)Najprej v svojih podatkovnih centrih z velikanskimi čipi za učenje nevronskih mrež, nato pa v telefonih Pixel z družino Google Tensor (Pixel 6, 7, 8…). Tam v sistem na čipu integrirajo TPU/NPU, da bi v samo napravo stisnili kamero, glas in vse bolj generativne funkcije umetne inteligence.
V svetu osebnih računalnikov sta morala Intel in AMD stopiti korak dlje. Intel v svoje procesorje Core Ultra (Meteor Lake) vključuje nevronske procesorje (NPU) z okoli 8–12 TOPS, medtem ko je AMD v svoje prenosne procesorje Ryzen 7040 prvič vključil umetno inteligenco Ryzen z do 10 TOPS, v kratki seriji namiznih procesorjev Ryzen 8000 pa je celo dosegel 39 TOPS NPU. Ideja je enaka: popeljemo umetno inteligenco na rob in ne biti toliko odvisen od oblaka za vse.
Kako deluje NPU: zakaj je tako dober za umetno inteligenco ... in tako slab za vse ostalo
Če miselno odpremo čip, je NPU bolj podoben tovarna množenja matrik kot klasični CPU. Namesto nekaj zelo vsestranskih jeder ima več deset tisoč preprostih ALU-jev, razporejenih v matriko ali mrežo, ki so sposobni vzporedno izvajati produkte "množenja in kopičenja" (MAC), pogosto z nizko natančnostjo.

Trik je v tem, da te enote organiziramo kot nekakšno sistolična matrikaPodatki vstopajo na eni strani, prehajajo iz celice v celico in vsaka celica izvede svojo majhno operacijo, preden rezultat posreduje naslednji. To zmanjša dostope do glavnega pomnilnika in poveča uporabo enot MAC, kar je prav tisto, kar nevronska mreža potrebuje pri sklepanju.
Da bi dosegli to učinkovitost, se NPU odpove številnim funkcijam, zaradi katerih so CPU ali GPU dražji: nima kompleksne logike napovedovanja vej, dovršenega sistema predpomnilnika in podpore za vsa splošna navodila. Njegova ISA je običajno minimalna. DMA za premikanje podatkov, točkovnih produktov, vsot, aktivacij in še marsičesa drugega.
Igra tudi z numerična natančnostMedtem ko tradicionalni CPU ali GPU udobno deluje v 32-bitnih ali 64-bitnih enotah s plavajočo vejico, NPU običajno deluje v INT8, FP16 in celo INT4. Za naučeno nevronsko mrežo je ta raven natančnosti zadostna za doseganje odličnih rezultatov, kar omogoča bistveno več operacij na cikel z veliko manjšo porabo energije na operacijo.
CPU, GPU, NPU in TPU: kdo kaj počne v umetni inteligenci
CPU ostaja "splošni možgani": upravlja operacijski sistem, koordinira naloge in izvaja krmilno logiko. Zmožen je izvajati majhne modele, ko pa ga prosite, naj obvladuje veliko omrežje ali vzdržuje neprekinjeno generiranje besedila, postane ozko grlo zaradi zakasnitve in porabe energije.
Grafični procesor je delovna sila globoko učenjeZelo dobro prevaja delo upodabljanja grafike (številne podobne operacije na velikih vektorjih) v učenje in izvajanje nevronskih mrež. Sodobni grafični procesorji vključujejo tudi tenzorska jedra specifične, ki se v praksi obnašajo kot majhni NPU-ji znotraj samega grafičnega procesorja.
Neuralni procesor (NPU) pa je zasnovan izključno za sklepanje umetne inteligence. Ni primeren za igranje iger, upodabljanje vmesnikov ali prevajanje kode, je pa idealen za delovanje omrežij za vid, glas ali jezik z energetsko učinkovitostjo, ki je grafični procesor ne more doseči v mobilnem telefonu ali ultralahkem prenosniku.
Googlovi TPU-ji so bližnji bratranec: ASIC-ji so se osredotočili na tenzorske operacije za pospeševanje modelov umetne inteligence, zlasti v svojih podatkovnih centrih. Edge TPU na razvojni plošči Coral na primer ponuja nekaj 4 TOP-i z le nekaj vatiIdealno za kamere in naprave interneta stvari, ki potrebujejo računalniški vid v realnem času brez pregrevanja ali prevelike porabe energije.
Skratka, idealna kombinacija v sodobni napravi je: CPU za splošno logiko, GPU za grafične delovne obremenitve in prilagodljivo vzporedno računalništvo ter NPU/TPU za nevronske mrežeVsak opravlja svoje delo, in ko je programska oprema dobro napisana, sistem delo precej inteligentno porazdeli.
Umetna inteligenca v oblaku v primerjavi z umetno inteligenco na lokaciji: hitrost, zasebnost in stroški
Do nedavnega se je skoraj vse, kar smo povezovali z "zmogljivo umetno inteligenco", dogajalo v oblaku: ChatGPT, Gemini, Stable Diffusion, napredni pomočniki ... Mobilni telefoni so delovali le kot neumni terminal ki je poslal podatke in prejel obdelan odgovor na strežniku, polnem grafičnih procesorjev ali procesorjev TPU.
Ta arhitektura ima očitno prednost: lahko poganjate ogromne modele, ne da bi vas skrbelo, kako bo uporabnik porabil energijo. Poceni naprava nižjega cenovnega razreda in vrhunski paradni model dosežeta enak rezultat, saj težko delo opravi procesor. podatkovni center z namensko strojno opremo.
Ima pa tudi znatne pomanjkljivosti. latenca Popolnoma odvisno od povezave: če imate slabo pokritost, ste na letalu ali v mestu z nezanesljivim ADSL-om, številne funkcije prenehajo biti "čarobne" in postanejo popolnoma neuporabne. Poleg tega vsaka zahteva zahteva pošiljanje podatkov tretjim osebam in zaupanje, da bodo pravilno obravnavane.

Lokalna umetna inteligenca igra ravno nasprotno igro: prinesite model na napravo in izvedite sklepanje na lastnem procesorju, grafičnem procesorju ali nevronski procesorji naprave. To odpravi omrežno zakasnitev, omogoči umetno inteligenco brez povezave in, kar je najpomembneje, olajša vašim podatkom ni treba zapustiti telefona, prenosnik ali avto, razen če si tega želiš.
Vendar pa je lokalna umetna inteligenca omejena s tem, kaj lahko strojna oprema obvladuje: RAM, VRAM, toplotna moč, baterijaModel s 70.000 milijardami parametrov danes ne ustreza udobno telefonu; če želimo nekaj tekočega in trajnostnega, se moramo zateči k zmanjšanim, kvantiziranim in visoko optimiziranim različicam.
Mobilne nevronske procesne enote: od kamere do asistenta, vključno z lokalnimi LLM-ji
V svetu pametnih telefonov nevronske procesne enote že leta tiho delajo na vsem, kar je povezano z mobilna fotografija in video, prepoznavanje obrazov, glas in prevajanje. Proizvajalci so k temu dodajali še druge funkcije.
V Applovem ekosistemu nevronski mehanizem (Neural Engine) obravnava Face ID, zaznavanje obrazov in predmetov v galeriji, narekovanje, prevajanje v živo, prepoznavanje besedila na slikah, AR in celo vrsto drugih opravil, ki jih jemljemo kot samoumevne. Z A16, A17 in družino M3/M4 Apple začenja delati korake, da bi Siri in druge generativne funkcije umetne inteligence delujejo na sami napravi brez tolikšne odvisnosti od oblaka, z izkoriščanjem teh 30-40 TOPS nevronskega motorja.
Google s svojima Tensorjema G2 in G3 počne nekaj podobnega v Pixelu. Pixel 8 s svojim Integriran TPU, lahko poganja okrnjene različice modelov, kot sta PaLM 2 ali Gemini Nano na napravi za opravila, kot so prevajanje, branje spletnih strani na glas, lokalni povzetki, bolj gladko glasovno tipkanje ali triki s kamero, kot sta Best Take in Audio Magic Eraser, vse s čipom, ki deluje brez nenehne potrebe po pošiljanju podatkov na strežnike.
Qualcomm pa že več generacij v seriji Snapdragon uporablja Hexagon NPU. Snapdragon 8 Gen 3 se ponaša z NPU, ki je 98 % hitrejši od Gen 2 in zmore delovati LLM-ji z do 10.000 milijardami parametrov na sami mobilni napravi, z javnimi demonstracijami stabilne difuzije, ki ustvarja slike z veliko hitrostjo, in Llama 2 ali Llama 3, ki delujeta popolnoma brez povezave.
MediaTek s svojimi APU-ji (procesorskimi enotami umetne inteligence) v seriji Dimensity ne zaostaja veliko in dosega naloge, kot so z APU-ji šeste generacije. Obdelava fotografij z umetno inteligenco v realnem času v mobilnih telefonih, kot je Oppo Find X8, in opozarja na dejstvo, da bo ista tehnologija NPU prišla tudi v televizorje, internet stvari in celo avtomobile.
Kaj se dogaja v osebnih računalnikih in avtomobilih z nevronskimi procesorji (NPU)
Na področju osebnih računalnikov je Microsoft predstavil kategorijo "Računalnik z umetno inteligenco" Intel Core Ultra (Meteor Lake), ki se zanaša na NPU-je, integrirane v sisteme na čipu Intel, AMD in Qualcomm, vključuje NPU s približno 8–12 TOPS za pospeševanje funkcij sistema Windows 11, kot so zameglitev ozadja, sintetični očesni stik, zmanjšanje šuma in v prihodnosti deli sistema Copilot.
AMD je Ryzen AI predstavil v seriji Ryzen 7040 za prenosnike in na kratko v namiznih računalnikih serije Ryzen 8000 z NPU do 39 TOPS. Čeprav je bil ta pristop prilagojen, je sporočilo jasno: Računalnik prihodnosti bo vedno imel namensko enoto umetne inteligence., tako kot ima že leta integriran grafični procesor.
V avtomobilski industriji stvari postajajo veliko bolj napredne. Tesla ima dve generaciji strojne opreme za popolnoma avtonomno vožnjo z dvojnimi nevronskimi procesorji (NPU): HW3 je imela približno 144 TOPS, HW4 pa približno 200–250 TOPS, vse za obdelavo signalov iz številnih kamer in senzorjev v realnem času ter za zagon nevronskih mrež, ki sprejemajo odločitve o vožnji v nekaj milisekundah.
NVIDIA s svojo platformo Drive Thor naredi še en preskok: en sam čip lahko doseže do 1000 TOPS ali 2000 TOPS z dvema povezanimaZasnovan je tako, da centralizira avtonomno vožnjo in umetno inteligenco v kabini (glasovni asistenti, spremljanje voznika, zabava itd.). Filozofija je enaka: več umetne inteligence kot želite v realnem času integrirati v avtomobil, bolj smiseln je namenski pospeševalnik v vozilu.
Poleg zasebnih avtomobilov so nevronske procesne enote (NPU) zelo priljubljene tudi pri varnostnih kamerah, dronih in robotih: naprave, kot sta Hailo-8 (26 TOPS z nizko porabo) ali Intelov Myriad in Google Edge TPU, omogočajo računalniški vid na robu brez preobremenitve omrežij ali podatkovnih centrov.
Lokalna umetna inteligenca na "pravem" mobilnem telefonu: PocketPal, MNN Chat in drugi
Poleg funkcij, ki jih je določil proizvajalec, je vse več uporabnikov, ki si jih želijo lokalno zaženite lastne jezikovne modele Na vaši mobilni napravi, brez uporabe ChatGPT, Gemini ali podobnih aplikacij. Tukaj pridejo na vrsto aplikacije, kot so PocketPal, Offgrid, ChatterUI ali MNN Chat.
PocketPal je eden najbolj dostopnih. Omogoča vam prenos odprtokodnih modelov (Llama, Gemma, Phi, Qwen, Mistral…) v kompaktnih formatih, kot je GGUF, in njihovo izvajanje neposredno na telefonu, brez povezave. popolna zasebnostPozivi in odgovori nikoli ne zapustijo naprave. Vse, kar potrebujete, je relativno sodoben mobilni telefon Android ali iOS, nekaj 6–8 GB RAM-a in nekaj gigabajtov prostega prostora za modele.
V praksi modeli s parametri med 1B in 4B (kot so Qwen2.5-1.5B, Llama 3.2 3B ali Qwen3-4B-Instruct) delujejo razmeroma dobro na telefonih srednjega razreda. Vendar pa je tipična zmogljivost običajno med 5 in 20 žetonov na sekundo v višjem cenovnem razredu, še manj pa v nižjem, daleč od tega, kar je mogoče doseči na strežniku s profesionalnim grafičnim procesorjem.
Za doseganje dodatne zmogljivosti je na iPhonu priporočljivo uporabljati Metal in povečati število plasti GPU-ja; na Androidu nekatere aplikacije to začenjajo izkoriščati. Vulkan, grafični procesor in v redkih primerih tudi nevronska procesna enota prek NNAPIKljub temu pa v mnogih od teh rešitev pravo breme še vedno pade na CPU in GPU, NPU pa ostaja premalo izkoriščen, ker programska plast ni zrela.
Primer MNN Chata je ilustrativen: gre za eno najhitrejših aplikacij, ki so jih mnogi uporabniki preizkusili na S24 Ultra, vendar za ceno uporabe visoko kvantiziranih modelov, z nekaj žrtvovanja kakovosti in brez jasnega, ali v celoti izkorišča Snapdragonov NPU ali "le" zelo dobro optimizira pot CPU/GPU.
Zakaj vaš S24 Ultra s Qwen 3.5 4B ne izkorišča 100 % svojega NPU-ja
Čeprav na papirju SoC S24 Ultra ali S25 Ultra lahko obvladuje modele z do 10 milijardami parametrov in več kot 40 TOPS izračunov umetne inteligence, se pri namestitvi LLM, kot je Qwen 3.5 4B, v generično aplikacijo običajno zgodi isto: Hitro se zažene, nato se segreje, zmogljivost pade in se stabilizira precej pod pričakovanji..
Glavni razlog je, da se v večini aplikacij drugih proizvajalcev model izvaja na procesorju ali grafičnem procesorju z uporabo splošnih knjižnic (BLAS, Vulkan, Metal) brez neposrednega, natančnega dostopa do nevronske procesne enote (NPU) sistema na čipu. V mobilnih napravah je NPU običajno izpostavljen prek API-jev, kot je NNAPI v sistemu Android ali Core ML v sistemu iOS, vendar niso vsi lokalni ogrodji LLM dobro integrirani z njimi, podpora proizvajalcev pa se razlikuje.
Rezultat je, da preprost test, kot je tisti, ki ga je Nexa AI pokazala z vrhunskim Galaxyjem, ki ustvarja neprekinjeno besedilo, jasno prikazuje vedenje: če je vse odvisno od CPU-ja, sprva žetoni na sekundo so zelo visokiToda v nekaj minutah se temperatura dvigne, sistem zniža frekvence, da ne bi presegel toplotne omejitve, zmogljivost pa pade na veliko skromnejšo, a trajnostno raven.
Ko se delovna obremenitev resnično preusmeri na NPU, se profil spremeni: na začetku ne vidite tako spektakularnega porasta, vendar opazite veliko večjo proizvodnjo žetonov. ravna in stabilna skozi časz nižjo temperaturo in manjšim vplivom na življenjsko dobo baterije. Težava je trenutno v tem, kako zagotoviti, da lokalna aplikacija LLM nemoteno komunicira s tem NPU-jem.
Poleg tega obstajajo še druge fizične omejitve, ki jih ni mogoče odpraviti s programsko opremo: količina razpoložljivega RAM-a, pasovna širina pomnilnika SoC in sama velikost modela. V mobilnih napravah je "cona udobja" za LLM običajno v kvantizirani modeli velikosti približno 3-4 GBNad tem se časi nalaganja, poraba in dušenje skoraj vedno povečajo.
Čeprav trženje čipov, kot sta Snapdragon 8 Gen 3 ali 8 Gen 4, govori o "10 milijardah LLM-ov na napravi", v praksi uporabniška izkušnja s težkimi odprtokodnimi modeli ostaja občutljiva, še posebej, če aplikacija ni zasnovana iz nič, da bi iz NPU-ja iztisnila največ z uporabo uradnih SDK-jev proizvajalca.
Prednosti in slabosti lokalne umetne inteligence na mobilnih napravah
Lokalno izvajanje umetne inteligence na mobilnih napravah je izjemno privlačno. Za začetek, ZasebnostČe model telefonira in ni klicev na zunanje strežnike, vse, kar mu poveste, ostane tam. To je neprecenljivo za občutljivo uporabo (osebne opombe, zdravstveni podatki, interni dokumenti podjetja itd.).
La latenca To deluje tudi v vašo korist: niste odvisni od omrežja, zato povzetek besedila, hiter prevod ali nekaj sklepanja prispe tako hitro, kot to dopušča čip, kjer koli že ste. Tudi na podzemni železnici brez signala ali na potovanju brez podatkov imate še vedno funkcionalnega pomočnika.
Poleg tega v velikem obsegu prenos dela iz oblaka zmanjšuje stroške. Ni enako kot milijoni uporabnikov, ki vsako poizvedbo pošljejo skupini plačljivih grafičnih procesorjev, kot je to, da nekatere od teh zahtev prenesejo na ... Neuporabniki mobilnih telefonov, ki so že plačali ob nakupu mobilnega telefonaZato podjetja, kot so Qualcomm, MediaTek in Apple, tako močno spodbujajo umetno inteligenco v napravah.
Cestnina je na drugi strani. baterija in temperatura Trpijo, če prekomerno uporabljate težke modele, kakovost manjših modelov še ne dosega ravni GPT-4 ali Gemini Ultra, izkušnja pa je lahko nedosledna, če je programska oprema še v zgodnji fazi: sesutja, modeli, ki se ne naložijo, frustrirajoče dolgi časi do prvega žetona ...
Zato veliko blagovnih znamk stavijo na model hibridniPreproste, hitre in odzivne naloge (osnovni prevodi, popravljanje besedila, nekatere možnosti urejanja fotografij in bližnjice) se obravnavajo neposredno na mobilni napravi, medtem ko se bolj zapletene zahteve ali tiste, ki zahtevajo zmogljivejši procesor, pošljejo v oblak. To ustvarja brezhibno in zasebno izkušnjo, ne da bi pri tem žrtvovali zmogljivosti zmogljivejših naprav, kadar je to potrebno.
Konec koncev je vloga nevronske procesne enote (NPU) ta, da vse to deluje: brez visoko učinkovitega jedra umetne inteligence v sistemu na čipu bi bila lokalna umetna inteligenca občasno razkošje, ki bi baterijo izpraznilo v nekaj minutah. Z zrelo nevronsko procesno enoto in dobro programsko opremo postane brezhibna funkcija, ki deluje v ozadju vašega telefona, računalnika ali avtomobila, medtem ko preprosto vidite, kako se vse odziva hitreje in inteligentneje.
Glede na ta scenarij je občutek jasen: umetna inteligenca ne živi več samo v oblaku ali samo na strežnikih velikih tehnoloških podjetij, temveč je pristane neposredno v vašem žepu in na vaši miziNeuralni procesor (NPU) mobilnega sistema na čipu ni samo za okras: je tihi motor, zaradi katerega je lokalna umetna inteligenca razmeroma hitra, uporabna in zasebna, čeprav še vedno potrebujemo preskok v programski opremi in ekosistemu, da lahko vsakdo kar najbolje izkoristi to, ne da bi si pri tem nalagal možgane ali se zadovoljil s 4 žetoni na sekundo.

