DeepSeek porta 100B parametri su CPU e sfida la dipendenza dalle GPU
DeepSeek ha rilasciato un nuovo paper che ripropone una tecnica classica applicata alle architetture transformer moderne. L'obiettivo è gestire modelli da 100 miliardi di parametri utilizzando la RAM della CPU invece di dipendere esclusivamente dalla preziosa e costosa VRAM delle GPU.
Questo approccio riduce drasticamente le barriere all'entrata per l'esecuzione di modelli giganti, permettendo un offloading intelligente dei layer del modello. Sebbene la velocità di inferenza pura non possa competere con un cluster H100, questa tecnica sposta il collo di bottiglia dalla capacità della memoria video alla larghezza di banda della memoria di sistema, rendendo l'AI di fascia alta accessibile su hardware commodity.
L'Analisi di Fabrizio:
Questa è la direzione tecnica che preferisco. Mentre tutti cercano chip più grandi, qualcuno ottimizza il software per sfruttare l'hardware che abbiamo già. Ho sempre sostenuto che l'ottimizzazione del codice batte la forza bruta dell'hardware nel lungo periodo.
Significa che potremo far girare agenti complessi su server standard o addirittura workstation locali senza spendere una fortuna in cloud. Per chi come me costruisce architetture agentiche, questo abbassa il TCO (Total Cost of Ownership) in modo significativo. Resta da vedere la latenza reale in produzione, ma la promessa di svincolarsi dalla 'GPU poor' zone è musica per le mie orecchie.
