Costo dei token AI: il conto della commodity lo paghi tu

Quando un modello diventa commodity, il prezzo di listino crolla. Il costo di servirlo no. Questa distinzione, che l’articolo di The Register lascia implicita, è la ragione per cui il costo dei token AI non sparirà mai del tutto: cambia solo chi lo paga. E dovrebbe interessare a chiunque oggi paghi un abbonamento per scrivere codice con l’AI.

Thomas Claburn su The Register prevede la fine dei margini per i grandi laboratori. Anthropic, OpenAI, Google: tutti schiacciati dalla commoditizzazione, con il valore che migra verso chi controlla la distribuzione. La previsione è solida sui numeri. Sbaglia su dove finisce il conto.

I margini dei lab non sono il tuo problema

La tesi di Claburn poggia su un dato che pochi mettono in dubbio: i modelli si stanno avvicinando. Gli open-weight cinesi GLM-5.1, Kimi K2.6, DeepSeek V4, Qwen3-Coder-Next dovrebbero raggiungere Claude Opus 4.7 e GPT-5.5 entro fine 2026.

Per ora il divario c’è ancora. Sui benchmark di coding Kimi K2.6 si ferma intorno a 87 contro il ~97 di Opus 4.7, un distacco che si misura in punti, non più in generazioni. Quando capacità quasi equivalenti sono disponibili gratis come peso, il prezzo che puoi chiedere per l’accesso via API tende a zero.

Da qui Claburn deriva la morte dei margini. E qui prende in prestito da Benedict Evans la previsione sulla direzione: nella sua presentazione “AI eats the world”, Evans sostiene che il modello diventa infrastruttura a basso margine, mentre il potere di prezzo sale lungo lo stack, verso chi possiede distribuzione, dati e workflow.

Il ragionamento fila finché parli di chi vende. Cambia completamente quando ti chiedi chi compra.

Il costo dei token AI non sparisce, cambia indirizzo

C’è un numero nell’articolo che vale più di tutta la discussione sui margini: l’abbonato a Claude Code che paga 200 dollari al mese e ne brucia 5.000 in token a prezzo API.

Quel numero non è un’anomalia. Casi di sviluppatori che consumano l’equivalente di migliaia di dollari in token su un piano fisso da 100-200 dollari sono documentati, con punte di oltre 15.000 dollari di valore API su otto mesi. Significa una cosa sola: il prezzo che paghi oggi è sotto il costo di servizio. Lo sconto lo finanzia capitale di rischio in attesa di un ritorno.

La commoditizzazione del prezzo di listino non azzera il costo di servizio. Una GPU costa, l’energia costa, la latenza ha un prezzo. Quei costi non evaporano perché il modello è scaricabile da Hugging Face. Restano lì, sul conto di chi serve l’inferenza. E quel conto, prima o poi, scende a valle.

La domanda interessante non è se Anthropic perderà i margini. È cosa succede al tuo workflow il giorno in cui smettono di poterti sussidiare.

Cosa cambia per chi scrive codice

Il pricing AI di oggi è un sussidio, non un diritto acquisito. Trattalo come tale e le decisioni cambiano.

Il piano “illimitato” è la prima cosa che salta. Quando le unit economics non reggono, il tier illimitato diventa rate limit, poi quota giornaliera, poi prezzo per consumo reale. Lo schema è già visibile nelle finestre di utilizzo dei piani Claude Code e nei limiti che si stringono a ondate. Chi ha incastrato il proprio lavoro quotidiano dentro un singolo abbonamento si ritrova senza margine di manovra esattamente quando il provider deve recuperare margine.

La difesa non è ottimizzare i prompt. È non costruire dipendenza dove non serve. Lo stesso ragionamento sul billing a token vale qui: l’unità che paghi è controllata da chi la vende, e il consumo cresce in modi che non vedi finché non arriva la fattura. La differenza è che stavolta la leva non è la verbosità del modello, è la sostenibilità dell’intero business.

Concretamente: tieni il tuo flusso di lavoro compatibile con più di un provider. Misura quanto del tuo output dipende da un singolo tool. Tieni d’occhio i modelli open-weight non come curiosità da weekend, ma come piano B operativo, perché il giorno in cui Kimi gira accettabilmente su hardware tuo o su un provider qualsiasi, il sussidio del lab smette di essere l’unica opzione.

Il take di TechMonk

Claburn e Evans hanno ragione su tre quarti del problema e sbagliano sul quarto che conta. I modelli si commoditizzano: vero. I margini dei lab si comprimono: vero. Il costo non sparisce: vero, ma loro non lo dicono. La direzione in cui si sposta il potere: qui crolla tutto.

La previsione di Evans è che il valore salga lungo lo stack, verso Apple, Google, Microsoft, i cloud, chi controlla distribuzione e workflow. È la stessa storia raccontata mille volte: il pesce grosso vince sempre. Ma quella previsione presuppone esattamente ciò che la commoditizzazione distrugge: il lock-in.

Ribalta la logica. Se un modello open-weight cinese fa il lavoro di Opus al 90% e gira dove vuoi tu, il potere di prezzo non sale da nessuna parte. Scende fino a te. Chi può self-hostare cambia provider a costo marginale zero. Chi può cambiare provider a costo zero non paga il pizzo a nessun livello dello stack. Lo scenario peggiore per i big non è perdere margine sui modelli, è perdere la cosa che rendeva il margine difendibile: il fatto che tu non potessi andartene.

Il valore migra “su per lo stack” solo finché esiste uno stack da risalire. Se l’intelligenza diventa un peso scaricabile e l’inferenza un servizio fungibile, lo stack si appiattisce. Apple e Google possono controllare la distribuzione del telefono, non la tua scelta di quale modello chiamare dal tuo backend. Quel pezzo, per la prima volta da quando esiste questo mercato, sta tornando in mano a chi scrive il codice.

C’è un però, e va detto perché altrimenti questa è propaganda. Self-hostare un modello da frontiera non è gratis: serve hardware, competenza ops, e la maggior parte dei team non lo farà mai. Per loro il lock-in resta reale e il potere sale dove dice Evans. La dispersione del potere non è automatica. È un’opzione che esiste solo per chi la esercita, e la maggioranza sceglierà la comodità del sussidio finché dura. Ma “finché dura” è il punto. La leva esiste, ed è la prima volta che esiste davvero.

Per questo il dibattito sui margini di Anthropic è una distrazione. Il margine dei lab è il loro problema. Il tuo è la fattura, ed è già qui: 200 dollari che ne valgono 5.000 sono la misura precisa di quanto il prezzo attuale sia finto.

Quanto vale il tuo abbonamento, davvero

La prossima volta che apri Claude Code o Copilot, fatti una domanda scomoda: quanto pagheresti se ti fatturassero il costo reale di ciò che consumi oggi?

Se la risposta ti spaventa, hai capito dove sta il conto. Se non lo sai calcolare, è perché il sussidio ha funzionato proprio come doveva. La commodity non è mai stata gratis. Era solo in promozione, e nessuno ti ha detto quando scade.