FM Logo
FM Logo

FM Logo
Home
AI Blog
Orchestration Era Nvidia Open Models

FM Logo
Home
AI Blog
Orchestration Era Nvidia Open Models
La caduta degli agenti caotici e l'alba dell'infrastruttura deterministica
INSIGHT #13

La caduta degli agenti caotici e l'alba dell'infrastruttura deterministica

15/03/20267 min lettura
In Breve

"DeepMind smonta l'hype multi-agente, Anthropic azzera i costi sul contesto infinito e Nvidia ridisegna l'infrastruttura open source. Ecco come cambia il modo in cui costruiamo software oggi."

Loading audio player...

Questa settimana ha segnato uno spartiacque netto nel modo in cui pensiamo e costruiamo i sistemi basati sull'intelligenza artificiale. Ho passato gli ultimi giorni a riorganizzare le mie pipeline di lavoro, perché le notizie arrivate dai principali laboratori di ricerca hanno letteralmente spazzato via mesi di convinzioni diffuse nel settore.

Stiamo assistendo a una polarizzazione brutale: da una parte la ricerca della stabilità assoluta e del pragmatismo architetturale, dall'altra l'abbattimento spietato dei costi per dominare l'infrastruttura. È finito il tempo dei test giocosi. Ora si va in produzione, e le regole per farlo sono appena cambiate.

La fine dell'hype multi-agente e il ritorno al pragmatismo

Ho sempre guardato con enorme sospetto i framework che promettono di risolvere ogni task lanciando dieci agenti in parallelo. Vedo continuamente team di sviluppo complicare le architetture senza un reale motivo tecnico, mettendo in piedi sistemi caotici che consumano enormi quantità di token e dilatano i tempi di latenza.

Questa settimana, i ricercatori di Google DeepMind hanno pubblicato uno studio che conferma i miei dubbi empirici con dati inoppugnabili. I test sul campo dimostrano una realtà cruda: far collaborare più agenti autonomi amplifica il tasso di errore fino a 17 volte rispetto a un singolo modello ben orchestrato.

Il problema centrale risiede nei loop di feedback negativi. Quando un agente commette una piccola inesattezza, l'agente successivo la prende come verità assoluta. Questo innesca una reazione a catena che fa deragliare l'intero processo in pochi passaggi logici. Le aziende stanno investendo milioni in architetture complesse sperando di ottenere sistemi capaci di auto-correggersi, ma la complessità aggiunge solo numerosi punti di rottura.

Personalmente, torno sempre alle basi del software design. Preferisco usare un singolo modello potente collegato a strumenti deterministici tramite il Model Context Protocol. Lascio le simulazioni sociali ai laboratori di ricerca: in produzione serve codice prevedibile che esegue il lavoro al primo colpo. Questo approccio riflette esattamente quello che ho analizzato di recente parlando di basta bot smemorati: l'era dell'azione deterministica.

Il crollo dei prezzi sul contesto infinito

Mentre DeepMind ci insegna a semplificare, Anthropic ha appena eliminato il più grande collo di bottiglia per chi lavora con enormi moli di dati. Hanno azzerato il sovrapprezzo per le richieste con contesti enormi sui modelli Claude 4.6 Opus e Sonnet. Le chiamate API che superano i 200.000 token costeranno esattamente come le interrogazioni standard.

Ho aspettato questo aggiornamento sui prezzi da molti mesi. Fino a ieri, gestire prompt giganteschi richiedeva architetture RAG complesse. Dovevo frammentare i testi, calcolare gli embeddings, usare database vettoriali e incrociare le dita sperando che l'algoritmo ripescasse il frammento giusto. Oggi posso infilare una documentazione aziendale completa o un intero repository di codice sorgente direttamente nella chiamata API.

L'impatto sui miei flussi di lavoro quotidiani risulta immediato e tangibile. Riduco i passaggi intermedi, elimino la necessità di frammentare i testi e ottengo risposte estremamente più precise, perché il modello ha accesso a tutto lo storico grezzo senza subire filtri preventivi. Questa mossa strategica rende superflui i vecchi sistemi di retrieval per i progetti medi e costringerà tutti i competitor ad abbassare subito le tariffe.

Orchestrazione ibrida: la vera abilità del 2026

La guerra dei modelli di frontiera accelera brutalmente e frammenta il mercato in due direzioni chiare. OpenAI ha rilasciato GPT-5.4, introducendo le versioni Pro e Thinking per gestire task di ragionamento complesso. Google ha risposto immediatamente con Gemini 3.1 Flash Lite, abbattendo i costi di inferenza a un ottavo rispetto alla versione Pro.

Ho testato le API del nuovo modello economico di Google e i costi sono letteralmente ridicoli. Questo rende obsoleti i vecchi sistemi per i task di routing e classificazione iniziale. Uso Gemini per sfoltire i dati in ingresso e passo il contesto ripulito alla versione Thinking di GPT-5.4 solo per l'analisi finale complessa.

Il mercato oggi premia chi sa orchestrare modelli diversi ed elimina senza pietà la lealtà a un singolo vendor.

L'approccio ibrido è la vera chiave per andare in produzione oggi. Evito di sprecare token preziosi per operazioni banali. La frammentazione dei tier di prezzo ci costringe a diventare architetti migliori, capaci di bilanciare latenza, intelligenza e budget a seconda del caso d'uso specifico. Ne parlavo proprio quando analizzavo perché l'AI agentica di GPT 5.2 è il vero game changer, ma oggi con GPT-5.4 questa dinamica è elevata all'ennesima potenza.

Insight Tecnico

L'infrastruttura diventa open: la mossa a tenaglia di Nvidia

Se i creatori di modelli si fanno la guerra sui prezzi, chi produce l'hardware sta cambiando le regole del gioco alla base. Nvidia ha accelerato sull'intelligenza artificiale rilasciando Nemotron 3 Super, un modello aperto da 120 miliardi di parametri, progettato con 12 miliardi di parametri attivi. Insieme a questo, hanno annunciato un investimento monstre di 26 miliardi di dollari e la preparazione di una piattaforma completamente open source dedicata alla creazione e gestione di agenti AI.

Trovo questa strategia semplicemente geniale. Fino a ieri compravamo le loro GPU per farci girare modelli altrui. Oggi ci regalano i modelli e i framework ottimizzati per il loro stesso hardware. Ho letto le specifiche di Nemotron 3 Super e l'architettura a parametri attivi riduce i costi di inferenza in modo drastico.

Costruire agenti autonomi diventa più economico e scalabile. La guerra sui foundation model si sposta definitivamente dal cloud proprietario all'infrastruttura aperta e ottimizzata a basso livello. Vedo un rischio enorme per le startup che vendono wrapper per agenti a caro prezzo: gli strumenti nativi forniti direttamente dal gigante dell'hardware diventeranno lo standard assoluto nel giro di sei mesi.

I social network cambiano target: le macchine parlano alle macchine

Mentre l'infrastruttura si consolida, l'ecosistema di Meta compie un passo decisivo verso la creazione di un ambiente nativo per l'interazione machine-to-machine. Hanno ufficializzato l'acquisizione di Moltbook, la prima piattaforma social dedicata interamente alle intelligenze artificiali.

Gli agenti autonomi avranno a disposizione un ambiente per scambiarsi dati, negoziare task e condividere il contesto operativo senza passare per i tradizionali colli di bottiglia delle interfacce umane. Ho costruito decine di workflow dove gli agenti AI devono passarsi informazioni strutturate e dover creare continui webhook o database intermedi è sempre un task inefficiente.

Moltbook fornisce un layer di messaggistica standardizzato e nativo per i bot. Posso finalmente immaginare un ecosistema aziendale dove i miei agenti specializzati comunicano in background per scambiarsi insight in tempo reale. Le macchine useranno protocolli di handshake simili a quelli social per collaborare, superando per sempre le vecchie API rigide.

Questa spinta verso l'integrazione totale fa da contraltare a quello che succede nel mondo governativo. OpenAI ha messo in pausa la sua discussa modalità per adulti per concentrarsi su performance e contratti militari, scatenando dimissioni interne, mentre Anthropic fa causa al Dipartimento della Difesa sui rischi di supply chain. Le dinamiche tra big tech e governi stanno diventando complesse, un tema che avevo già sfiorato notando come il Pentagono usa GPT e Claude non dimentica più nulla.

I tool della settimana che cambiano il workflow

In mezzo a queste rivoluzioni architetturali, sono emersi alcuni strumenti che ho già iniziato a testare nei miei ambienti locali. Ecco quelli che meritano davvero attenzione:

ToolCosa faPerché lo uso
TADA by Hume AIModello di generazione vocale open source velocissimo e privo di allucinazioni.Perfetto per interfacce vocali in tempo reale senza il ritardo fastidioso delle API tradizionali.
NanoClawFramework leggero per eseguire agenti AI all'interno di ambienti Docker isolati.Risolve il problema della sicurezza quando faccio eseguire codice generato dall'AI sul mio server locale.
AgentMail APIInfrastruttura di posta elettronica programmabile per far comunicare gli agenti.Ideale in attesa che l'ecosistema Moltbook di Meta diventi maturo per la produzione.
Roboflow Inference 1.0Motore di inferenza per la computer vision ad alte prestazioni.Scalabilità pura per i progetti visivi che devono gestire miliardi di richieste senza crollare.

L'intelligenza artificiale sta smettendo di essere un trucco magico per diventare una solida disciplina ingegneristica. Se vuoi approfondire come applicare questo pragmatismo e trasformare l'AI in un vantaggio concreto per i tuoi processi quotidiani, ho raccolto il mio metodo e i miei framework ne il mio libro sull'AI. La chiave oggi non è avere il modello più intelligente, ma l'architettura più solida.

Ti è stato utile? Ne ho altri così.

Ogni settimana scelgo le notizie AI più interessanti e di impatto e le condivido in una recap via email. Iscriviti per non perdere il prossimo.

Condividi questo Insight
LinkedInTwitterEmail

Insight Correlati

Il codice che lavora di notte e l'illusione dei tagli aziendali

Il codice che lavora di notte e l'illusione dei tagli aziendali

Da Claude Code che opera in background a GPT-5.4 con contesti enormi. Ecco come la velocità estrema sta trasformando la mia architettura software.

Leggi tutto
Il Pentagono usa GPT e Claude non dimentica più nulla

Il Pentagono usa GPT e Claude non dimentica più nulla

Dall'infrastruttura militare alla memoria persistente nel codice: ecco come la settimana ha cambiato il modo in cui costruisco le mie pipeline.

Leggi tutto
L'AI esce dal browser e prende il controllo del terminale

L'AI esce dal browser e prende il controllo del terminale

Dagli agenti che gestiscono il desktop agli errori catastrofici in produzione: ecco perché l'AI nel terminale è la nuova frontiera dell'automazione.

Leggi tutto

L'Insight fatto Podcast

AI Audio Version

Ascoltalo mentre guidi o sei in palestra.

Ready
Fabrizio Mazzei, AI Solutions Architect e consulenza AI
Autore

Fabrizio Mazzei

AI Solutions Architect

Come AI Solutions Architect progetto ecosistemi digitali e flussi di lavoro autonomi. Quasi 10 anni nel marketing digitale, oggi integro l'AI nei processi aziendali: da Next.js e sistemi RAG a strategie GEO e formazione dedicata. Mi piace parlare di AI e automazioni, ma non solo: ci ho anche scritto un libro, "Lavora Meglio con l'Intelligenza Artificiale", un manuale pratico con 12 capitoli e oltre 200 prompt pronti all'uso per chi vuole usare ChatGPT e l'AI senza programmare. Il mio punto di forza? Guardare un processo manuale e vedere già l'architettura automatizzata che lo sostituirà.

Scopri il mio libro Vedi i miei lavori Connettiamoci