La Cina punta sull'analogico per superare la barriera energetica dell'intelligenza artificiale
Quando si parla di AI, il dibattito ruota sempre attorno a modelli più grandi e a una maggiore potenza di calcolo. Dietro le quinte, però, emerge un problema molto più concreto che impone limiti severi: la bolletta elettrica e il calore che questa elettricità inevitabilmente genera.
In questo scenario, nei laboratori di Pechino, un chip sperimentale recupera un'idea datata utilizzando strumenti all'avanguardia: elaborazione analogica invece di rigorosamente binaria. Il processore sviluppato dall'Università di Pechino mira ad accelerare operazioni molto specifiche e, in alcuni test, a ridurre drasticamente il consumo energetico. La promessa è concreta, ma arriva con un avvertimento altrettanto chiaro: si applica a una categoria ristretta di compiti e richiede compromessi in termini di precisione e ingegneria.
Nell'ultimo decennio, l'AI è progredita grazie a data center sempre più estesi: più GPU, più memoria, più raffreddamento, più energia elettrica. In molti casi, il limite non è più la "mancanza di capacità di calcolo", ma il costo e l'energia (insieme al calore che ne deriva).
Il team dietro questo chip – guidato da Sun Zhong e pubblicato su Nature Communications – sostiene che, per alcune operazioni fondamentali, l'approccio digitale sta diventando troppo costoso in termini di watt per risultato. Nei loro risultati, il processore analogico esegue determinati compiti fino a circa 12 volte più velocemente, con consumi riportati nell'ordine di circa 1/200 dell'energia rispetto ai chip digitali avanzati (valori che dipendono molto dallo scenario, dalla dimensione del problema e dal metodo di misurazione).
L'obiettivo non è sostituire CPU o GPU. È attaccare un "punto critico" energetico tipico dell'AI: moltiplicazioni e aggiornamenti iterativi su matrici di grandi dimensioni, dove spostare i dati può costare tanto quanto (o più di) calcolarli.
Cosa significa "analogico" quando il tuo smartphone è completamente digitale
Prima che il digitale dominasse, esistevano computer analogici che "calcolavano" con grandezze fisiche (tensioni, correnti, meccanismi). Erano eccellenti per compiti specifici, ma avevano poca flessibilità.
Il chip cinese recupera questa logica con circuiti moderni su scala nanometrica e con un'integrazione più stretta tra memoria ed elaborazione.
Come l'elaborazione analogica differisce dal tuo laptop
Nel digitale, tutto si trasforma in 0 e 1. Lo stesso calcolo viene suddiviso in molti passaggi, coordinati da un clock, con commutazione costante dei transistor.
- In un processore digitale, il calcolo avviene in passaggi discreti e ripetibili.
- In un circuito analogico, segnali continui possono "risolvere" parte della matematica in una sola volta, sfruttando la fisica stessa del circuito.
In un chip analogico per l'AI, i valori possono essere rappresentati come tensioni o correnti. Attraversando una rete di componenti, certe operazioni (soprattutto di algebra lineare) emergono quasi "naturalmente" – con meno commutazioni e, quindi, meno energia. In pratica, questo segue generalmente una regola semplice: si guadagna efficienza quando si accetta meno precisione (ad esempio, risultati approssimati equivalenti a pochi bit utili), cosa che molti carichi di lavoro AI tollerano bene.
Perché l'analogico è passato di moda e poi è tornato
L'analogico classico ha perso terreno perché era difficile da programmare, sensibile a rumore e temperatura, e poco riconfigurabile. Il digitale ha vinto con precisione, ripetibilità e un ecosistema software enorme.
L'interesse sta tornando perché:
- Il guadagno derivante dalla riduzione delle dimensioni dei transistor non cresce più come prima, rendendo la "forza bruta" meno attraente per watt.
- Molti modelli di AI funzionano bene con approssimazioni e quantizzazione, purché l'errore sia controllato.
- Tecniche moderne di calibrazione e compensazione aiutano a ridurre la deriva – ma aggiungono complessità (e, talvolta, consumo) al di fuori del nucleo analogico.
In sintesi: l'analogico torna non perché sia "migliore in tutto", ma perché compete bene in alcuni blocchi matematici dove energia e traffico dati sono determinanti.
Un chip progettato per carichi di lavoro AI reali, non solo equazioni da laboratorio
Diversi prototipi analogici precedenti non sono mai andati oltre semplici dimostrazioni. Qui, i test indicano compiti con dati reali, come sistemi di raccomandazione (un classico nelle piattaforme digitali) e compressione di immagini.
Nelle raccomandazioni, il problema tipico è gestire matrici di grandi dimensioni (utenti × articoli), aggiornate continuamente. Il chip è stato testato con set di dati di dimensioni paragonabili a quelli usati in contesto commerciale e, in questi scenari, ha riportato guadagni rilevanti in termini di tempo ed energia rispetto all'hardware digitale avanzato – con la precisazione che il guadagno dipende dall'"allineamento" tra il metodo e il circuito.
Nella compressione e ricostruzione delle immagini, il chip ha ottenuto una qualità visiva prossima a quella dei metodi digitali di maggiore precisione nei test presentati, con riduzione dello spazio di archiviazione in alcuni casi. Un errore comune nel leggere questo tipo di risultato è supporre "metà dello spazio per qualsiasi immagine": in realtà, il risparmio varia con il contenuto, il livello di compressione e la metrica di qualità utilizzata.
In molte applicazioni, la "perfezione" è uno spreco. La sfida è garantire che il "sufficientemente buono" rimanga stabile, ripetibile e verificabile.
Il trucco matematico nascosto: fattorizzazione di matrici non negative
Il nucleo del lavoro è la NMF (non-negative matrix factorization), una tecnica utilizzata per estrarre pattern da matrici con valori non negativi.
Cosa fa realmente la NMF
Immagina una matrice grande (ad esempio, utenti e film; o pixel e luminosità). La NMF cerca di approssimarla come il prodotto di due matrici più piccole, mantenendo valori non negativi. Questo può rivelare "componenti" interpretabili.
- Nelle raccomandazioni, aiuta a scoprire preferenze latenti.
- Nelle immagini, può scomporre una scena in caratteristiche.
- Nell'audio, può separare sorgenti (approssimativamente) quando i dati lo consentono.
Nel digitale, la NMF tende a richiedere molte iterazioni: si ripetono aggiornamenti fino alla convergenza, e questo pesa su calcolo e memoria quando la matrice ha milioni di elementi. L'idea del chip è implementare direttamente questi aggiornamenti in un circuito analogico in-memory, dove archiviazione e calcolo avvengono nello stesso "luogo". Così si riduce il costo di recuperare i dati dalla memoria infinite volte – spesso una delle maggiori fonti di energia e latenza.
Elaborazione in-memory: eliminare la congestione del traffico dati
Nell'AI moderna, spostare dati può costare più energia di una semplice operazione aritmetica, soprattutto quando si fa DRAM ↔ processore ripetutamente. Inoltre, questo movimento si trasforma in calore, che poi richiede raffreddamento (e più energia).
L'elaborazione in-memory cerca di invertire la logica: porta il calcolo fino ai dati. Nel design descritto, le matrici analogiche eseguono operazioni mentre le correnti le attraversano, minimizzando i trasferimenti.
| Architettura | Dove risiedono i dati | Dove avviene la matematica | Impatto tipico |
|---|---|---|---|
| GPU tradizionale | Memoria + cache | Unità digitali separate | Alto costo per traffico dati |
| Chip analogico NMF | Matrici analogiche | Nelle matrici stesse | Meno traffico, minor consumo nelle attività target |
Il rovescio della medaglia: molte soluzioni in-memory necessitano conversioni analogico↔digitale e calibrazione. Se questi "ponti" sono frequenti, possono consumare parte del guadagno.
Come si confronta con l'hardware di livello Nvidia
La Nvidia H100 è un riferimento dell'ondata attuale: prestazioni elevate, ma anche consumi importanti (spesso centinaia di watt per chip, e sistemi completi con decine di kW per rack, a seconda della configurazione e del raffreddamento).
Il team stima che, in compiti di tipo NMF, il design analogico possa essere almeno un ordine di grandezza più veloce e utilizzare circa 1/200 della potenza, nelle condizioni sperimentali descritte. Esistono anche proiezioni interne che parlano di guadagni molto maggiori in configurazioni specifiche, ma questo normalmente implica ipotesi forti (dimensione del problema, precisione, I/O, conversioni, tasso di errore accettabile).
Il punto essenziale: questi confronti non riguardano l'"AI in generale". Sono per un kernel matematico specifico. Le GPU continuano a dominare quando la priorità è flessibilità, precisione controllata ed ecosistema (compilatori, librerie, framework). Questo chip ha più senso come acceleratore specializzato accanto a CPU e GPU.
Se la GPU è versatile, l'analogico tende a essere efficiente quando il problema rientra esattamente nel suo "binario".
Utilizzi potenziali e impatto nel mondo reale
Dove questo tipo di chip potrebbe essere importante per primo
Se la tecnologia si espande fino alla produzione, tende a essere sensata dove c'è grande volume e vincoli energetici:
- Piattaforme di contenuti e commercio digitale: raccomandazioni con costo inferiore per richiesta.
- Telecomunicazioni ed edge: inferenza locale su dispositivi con limiti stretti di energia e raffreddamento.
- Industria: analisi di sensori in loco, senza necessità di armadi con climatizzazione pesante.
- Sanità: compressione e analisi vicino alla fonte quando non ha senso trasportare tutto nel cloud.
In Italia (come in altri paesi), il costo reale non è solo l'elettricità: è anche l'infrastruttura (UPS, distribuzione, raffreddamento) e la capacità di mantenere potenza e temperatura stabili. Se un acceleratore riduce consumo e calore in una fetta rilevante del carico di lavoro, può tradursi in meno CAPEX e OPEX – ma solo se il software riesce a sfruttarlo senza grandi costi di integrazione.
Rischi e ostacoli pratici
Gli ostacoli non sono piccoli:
- Rumore, temperatura e deriva: l'analogico può variare con l'ambiente; richiede calibrazione e validazione continue.
- Precisione e verificabilità: "approssimato" è accettabile nell'AI, ma necessita limiti chiari (e test di regressione).
- Produzione e rendimento: matrici grandi e uniformi sono difficili da fabbricare e calibrare con buon yield.
- Programmazione ed ecosistema: senza strumenti e API, l'adozione rimane limitata a team molto specializzati.
- Colli di bottiglia fuori dal nucleo: convertitori A/D e D/A, I/O e memoria esterna possono diventare il nuovo limite.
C'è anche la dimensione geopolitica: acceleratori domestici possono ridurre dipendenze e accelerare investimenti interni, anche se la tecnologia inizia da nicchie.
Cosa significa questo per il futuro dell'hardware AI
Questo chip non "uccide" il digitale. Segnala, invece, un'AI più eterogenea: ogni tipo di hardware fa ciò che fa meglio.
È plausibile vedere sistemi misti, dove:
- Le CPU gestiscono logica e orchestrazione.
- GPU e acceleratori digitali fanno training generale e inferenza flessibile.
- Matrici analogiche in-memory accelerano blocchi specifici (come NMF e altre operazioni matriciali), quando la tolleranza all'errore e il profilo dei dati lo permettono.
Per l'utente comune, questo potrebbe arrivare senza annunci: servizi più economici per richiesta, raccomandazioni rapide su dispositivi a basso consumo, e meno pressione per aumentare i prezzi solo per pagare energia e raffreddamento. Per chi decide politiche e investimenti (incluso il settore energetico), il messaggio è più pragmatico che "rivoluzionario": ci sono guadagni significativi possibili, ma solo quando il problema giusto incontra l'hardware giusto – e quando i costi di ingegneria non annullano il risparmio in watt.












