Il “caso DeepSeek”
Lo Sputnik ha fatto beep?
In anni recenti, il tentativo di creare una forma artificiale di intelligenza (d’ora in poi, nel testo, semplicemente “IA”) ha dato origine a nuovo ambito di competizione a livello globale; è cominciata una vera e propria “corsa all’IA”.
In questo scenario, l’azienda cinese DeepSeek, secondo molti osservatori, ha recentemente messo in discussione il paradigma consolidato del “gigantismo tecnologico” delle Big Tech statunitensi. Infatti, ciò che ha reso tale il “caso DeepSeek” è che l’azienda cinese, a quanto pare, ha dimostrato che è possibile ottenere risultati di alto livello senza un’escalation incontrollata di risorse.
In queste righe si farà spesso riferimento a “modelli” di IA, intesi, in estrema e imprecisa sintesi, come delle componenti software, addestrate sulla base di specifici algoritmi, che tentano di replicare l’intelligenza umana, facendo previsioni, riconoscendo schemi e prendendo decisioni. Al centro della scena ci sono i modelli come quelli alla base del noto ChatGPT, progettati per comprendere domande e generare risposte in linguaggio naturale, con l’obiettivo di assistere gli esseri umani in svariati compiti – dalla risoluzione di problemi matematici alla programmazione – e di migliorare l’efficienza e l’efficacia delle interazioni uomo-macchina.
DeepSeek ha raggiunto la notorietà globale con il rilascio di DeepSeek R1, un modello avanzato di IA che sembra aver dimostrato capacità superiori rispetto ai modelli di OpenAI – l’azienda dietro a ChatGPT – in diversi benchmark (per DeepSeek-R1 cfr. https://github.com/deepseek-AI/DeepSeek-R1?tab=readme-ov-file#4-evaluation-results: la fonte è la stessa DeepSeek. Un articolo pubblicato su Medium – Mehul Gupta, OpenAI-o3-mini vs DeepSeek-R1, https://medium.com/data-science-in-your-pocket/OpenAI-o3-mini-vs-deepseek-r1-23326fa36e4b – ha messo a confronto OpenAI O3-mini e DeepSeek R1, evidenziando coma O3-mini superi R1 in molti casi. Tuttavia, R1 ha dimostrato di essere comunque all’altezza del confronto).
Fino a ieri, la ricerca nel campo dell’IA è stata dominata dalle Scaling Laws, le empiriche “leggi di scalabilità” che descrivono come le prestazioni dei modelli migliorino all’aumentare di fattori chiave , quali la dimensione del modello (o meglio il numero dei suoi parametri), la quantità dei dati di addestramento e le risorse computazionali impiegate. Uno studio di OpenAI ha evidenziato che modelli più grandi e addestrati su dataset più estesi con maggiori risorse computazionali, tendono a ottenere prestazioni superiori (cfr. Scaling laws for neural language models, https://OpenAI.com/index/scaling-laws-for-neural-language-models/). Tutto ciò in uno scenario di finanziamenti miliardari e infrastrutture colossali, con pochi riguardi per l’immane capitale energetico necessario, problema che viene spesso affrontato dai vari CEO delle Big Tech con ingenti investimenti nel settore dell’energia atomica, vista come soluzione per l’approvvigionamento energetico “a basso costo”.
L’avvento di DeepSeek sembra insomma aver dimostrato che l’IA può essere sviluppata in modo più efficiente e sostenibile. In particolare, DeepSeek è riuscita a sfruttare GPU meno avanzate, aggirando il blocco statunitense sui chip IA e abbattendo drasticamente i costi di produzione. La GPU (Graphics Processing Unit) è un processore specializzato progettato per eseguire calcoli paralleli ad alte prestazioni, inizialmente sviluppato per l’elaborazione grafica nei videogiochi, ma oggi ampiamente utilizzato in campi come appunto l’IA, il machine learning e il calcolo scientifico. A differenza delle CPU (Central Processing Unit), che sono ottimizzate per eseguire pochi compiti in modo sequenziale, le GPU sono progettate per gestire migliaia di operazioni contemporaneamente.
I risultati ottenuti da DeepSeek hanno generato un vero e proprio shock nel settore, tanto da far parlare di un “momento Sputnik” per l’IA. L’espressione è stata coniata da Marc Andreessen, uno dei più influenti investitori della Silicon Valley e sostenitore delle politiche tecnologiche dell’amministrazione Trump (cfr. il post su X di Andreessen, https://x.com/pmarca/status/1883640142591853011). Il termine fa riferimento all’episodio storico del 1957, quando l’Unione Sovietica lanciò il primo satellite artificiale della storia, Sputnik 1, cogliendo gli Stati Uniti di sorpresa e scatenando una reazione “isterica” nel mondo occidentale. Questo evento segnò l’inizio della corsa allo spazio, portando il governo statunitense a investire enormi somme in ricerca e tecnologia per recuperare il ritardo (cfr. Gianluigi Filippelli, Il bip che cambiò la storia, https://edu.inaf.it/approfondimenti/scoperte/il-bip-che-cambio-la-storia/).
Tuttavia, se il paragone con Sputnik può essere valido sotto l’aspetto della “sorpresa strategica”, probabilmente le reazioni sono sproporzionate ai fatti. Mentre lo Sputnik ha rappresentato un chiaro sorpasso tecnologico sovieticosugli Stati Uniti, DeepSeek non ha superato OpenAI in modo netto e definitivo.
Negli Stati Uniti, come è noto, l’innovazione è guidata dal settore privato. Le Big Tech americane hanno investito miliardi di dollari in enormi data center e in infrastrutture computazionali avanzate. La più ovvia conseguenza di questo approccio è la dipendenza da risorse economiche immense, che rendono lo sviluppo dell’IA accessibile solo ai pochi soggetti in grado di attrarre gli investimenti necessari: una pratica che si nutre del costante clamore mediatico, volto alla generazione continua di aspettative.
Naturalmente, in uno scenario di confronto capitalistico, le “vecchie” pratiche si adattano perfettamente anche al contesto attuale: la filiera tecnologica occidentale dipende fortemente dalle GPU di Nvidia, garantendo alle aziende americane un vantaggio significativo. Questo monopolio de facto ha consentito agli Stati Uniti di controllare il flusso di chip avanzati destinati alla Cina, nel tentativo di rallentare il progresso della potenza concorrente.
Per di più, le aziende americane hanno adottato un approccio proprietario e chiuso nello sviluppo dell’IA. OpenAI, nonostante il nome, non rilascia pubblicamente i suoi modelli di punta e controlla strettamente l’accesso ai dataset e ai parametri di addestramento (cfr. OpenAI API. We’re releasing an API for accessing new AI models developed by OpenAI, https://OpenAI.com/index/OpenAI-api/, in particolare la FAQ Why did OpenAI choose to release an API instead of open-sourcing the models?).
La strategia cinese, invece, si dichiara fondata su principi diametralmente opposti. DeepSeek sostiene di aver dimostrato che è possibile addestrare modelli con una frazione delle risorse richieste da quelli di OpenAI. L’azienda ha perciò utilizzato GPU Nvidia H800, meno avanzate e costose rispetto alle Nvidia H100, bloccate dalle sanzioni statunitensi, riuscendo malgrado ciò a ottenere risultati notevoli. Per la Cina, l’obiettivo è l’indipendenza dalle forniture statunitensi, tramite l’investimento governativo nel settore nazionale dei semiconduttori e, facendo di necessità virtù, puntando sull’efficienza invece che sulla potenza di calcolo illimitata. Come già affermato, un aspetto chiave della competizione tra Stati Uniti e Cina riguarda proprio il controllo delle risorse hardware necessarie allo sviluppo dell’IA. Negli ultimi anni, gli USA hanno imposto restrizioni sempre più severe sull’export di semiconduttori avanzati verso la Cina. Tuttavia, queste restrizioni hanno avuto un effetto paradossale: invece di rallentare il progresso cinese, hanno accelerato l’innovazione in direzioni alternative. In questo senso, le sanzioni statunitensi si sono rivelate controproducenti.
Il “DeepSeek pensiero”
DeepSeek è una azienda cinese che si è affermata nel panorama dell’IA in un tempo sorprendentemente breve. Fondata nel maggio del 2023, la società è stata creata da Liang Wenfeng, un imprenditore con un passato nel mondo degli hedge funds, che ha poi deciso di investire nel settore dell’IA. A differenza di molte aziende occidentali nate con il supporto di grandi finanziatori e venture capital, DeepSeek è stata avviata con fondi propri, riflettendo la determinazione del suo fondatore nel portare avanti un progetto ambizioso senza essere vincolato agli interessi dei finanziatori (cfr. Alberto Puliafito, E poi arrivò DeepSeek, https://www.internazionale.it/notizie/alberto-puliafito/2025/02/03/deepseek-intelligenza-artificiale).
Wenfeng ha enfatizzato più volte l’importanza dell’innovazione rispetto al semplice profitto, dichiarando che la competizione nel campo dell’IA non si basa solo sulla potenza di calcolo, ma soprattutto sulla qualità dell’architettura dei modelli (cfr . Franco Padella, Tra unicorni e balene, le regole del gioco dell’IA, https://sbilanciamoci.info/tra-unicorni-e-balene-le-regole-del-gioco-dellIA/).
Dal punto di vista strettamente tecnologico, DeepSeek R1, il modello rilasciato da DeepSeek nel gennaio del 2025, si distingue dagli altri modelli IA per una serie di elementi innovativi. Non è un semplice modello di generazione testuale, ma un reasoning model: a differenza dei classici modelli di linguaggio che provano a rispondere immediatamente, R1 tenta di elaborare prima una catena di pensiero, impiegando anche diversi secondi per generare una risposta più articolata. Questa caratteristica lo avvicina al concetto di AGI (Artificial General Intelligence), poiché non si limita a prevedere la prossima parola più probabile (non è insomma un “pappagallo stocastico”), ma tenta di costruire attivamente un ragionamento coerente (cfr. Francesco Maria De Collibus, DeepSeek, l’intelligenza artificiale, la Cina, Socrate e quello che non sappiamo di non sapere, https://www.valigiablu.it/deepseek-cina-usa-cosa-e-successo/).
L’implementazione su vasta scala di tecniche di “apprendimento per rinforzo” (Reinforcement Learning, RL) ha determinato un incremento del grado di efficienza delle risposte da parte di R1. Si tratta di tecniche in cui un “agente” impara a prendere decisioni ottimali interagendo con un “ambiente” e ricevendo ricompense o penalità in base alle azioni compiute. L’obiettivo dell’agente è massimizzare la ricompensa cumulativa nel tempo, migliorando le proprie strategie attraverso l’esperienza.
DeepSeek sembra aver dimostrato che l’efficienza può compensare la mancanza di potenza computazionale, un risultato che ha allarmato i sostenitori delle Scaling Laws. L’IA è al centro di un’enorme bolla speculativa, con investimenti miliardari e aziende che promettono, a ogni pie’ sospinto, innovazioni rivoluzionarie. Se l’IA può essere sviluppata con meno risorse, allora gli investimenti faraonici delle Big Tech potrebbero rivelarsi sovrastimati, portando a un crollo del valore delle aziende del settore e a una riduzione drastica dei flussi di denaro. Insomma, la paura è che la bolla scoppi.
Un altro aspetto rilevante del “caso DeepSeek” è rappresentato dalla scelta di rilasciare i “pesi” del modello R1, permettendo a chiunque di scaricarlo e utilizzarlo (per R1: https://huggingface.co/deepseek-AI/DeepSeek-R1). Ciò ha reso DeepSeek particolarmente popolare nella comunità degli sviluppatori. Nel contesto dei modelli IA, i “pesi” (weights) sono valori numerici che determinano la forza delle connessioni tra i neuroni artificiali in una rete neurale. Essi rappresentano il cuore dell’apprendimento automatico e vengono continuamente aggiornati durante il processo di addestramento del modello. Nei modelli cosiddetti open source, i “pesi” vengono resi pubblici per permettere agli sviluppatori di riutilizzarli e personalizzarli. Nei modelli proprietari come quelli di OpenAI o di Google DeepMind, i “pesi” non vengono rilasciati, impedendo a terzi di utilizzare il modello al di fuori della piattaforma fornita.
Il fondatore di DeepSeek, Liang Wenfeng, ha dichiarato che l’open source è una filosofia di innovazione più che un modello di business. L’idea è che la collaborazione globale acceleri il progresso scientifico e tecnologico (cfr. Paolo Ottolina, DeepSeek, chi è Liang Wenfeng: «Sembrava un nerd con una brutta pettinatura, non l’abbiamo preso sul serio», https://www.corriere.it/tecnologia/25_gennaio_27/deepseek-chi-e-liang-wenfeng-sembrava-un-nerd-con-una-brutta-pettinatura-non-l-abbiamo-preso-sul-serio-55502840-f40b-4308-8a35-c4929860axlk.shtml). Certamente, “aprire” i modelli IA, in questo contesto, è anche un modo per diffondere tecnologie avanzate che possano sfuggire al controllo dei governi occidentali e delle Big Tech. La speranza è che, con il crescente interesse per l’IA open source, anche altre aziende inizino a rilasciare modelli liberamente accessibili.
Anche Meta – prima sia della “svolta trumpiana” che del rilascio di R1 – si è schierata a favore della “filosofia” open source, promuovendo l’adozione di modelli di intelligenza artificiale “aperti”. Meta ha anche rilasciato Llama, un modello open source che, secondo l’azienda, è tra i più avanzati disponibili pubblicamente. Mark Zuckerberg stesso ha sostenuto, nel mese di luglio dell’anno scorso, che l’open source fosse la strada da seguire (cfr. Mark Zuckerberg , Open Source IA is the Path Forward, https://about.fb.com/news/2024/07/open-source-IA-is-the-path-forward/). Tuttavia, è importante notare che, sebbene Meta promuova questi modelli come open source, alcune organizzazioni, come l’Open Source Initiative (OSI), hanno sollevato dubbi sulla reale apertura di tali modelli, sottolineando l’esistenza di restrizioni nell’uso commerciale e nella disponibilità dei dati di addestramento (cfr. Kylie Robison, Open-source AI must reveal its training data, per new OSI definition, https://www.theverge.com/2024/10/28/24281820/open-source-initiative-definition-artificial-intelligence-meta-llama). Non è possibile al momento prevedere se si verificherà o meno un ennesimo cambio di rotta da parte di Meta verso la “chiusura” dei modelli; più probabilmente, per le Big Tech in generale, si tratta della volontà di attuare un piano eterogeneo, che comprenda orientamenti apparentemente divergenti, verificandone l’efficacia in itinere. Inoltre, al momento, Meta si trova lontano dalle prime posizioni della classifica del settore dell’IA, saldamente occupate da OpenAI, da Microsoft e da Google. In questo senso, l’adesione alla “filosofia” open source da parte di Meta può essere letta come un prodromo della strategia di DeepSeek.
La “distillazione di conoscenza” e la proprietà intellettuale
Uno dei temi più controversi riguarda l’ipotesi che DeepSeek abbia utilizzato tecniche di “distillazione di conoscenza” per “apprendere” da ChatGPT e da altri modelli di OpenAI. La “distillazione di conoscenza” è una tecnica di apprendimento automatico utilizzata per trasferire informazioni da un modello IA avanzato (teacher model) a un modello più piccolo e leggero (student model). Il modello teacher genera risposte dettagliate su una vasta gamma di input e il modello più piccolo (student) viene addestrato utilizzando le risposte del teacher, invece che partendo da zero con un dataset tradizionale. Il modello risultante impara a imitare il comportamento del modello originale, con un costo di addestramento assai inferiore.
Questa tecnica viene solitamente utilizzata del tutto legalmente, soprattutto per creare versioni più leggere dei modelli IA. Tuttavia, se un’azienda utilizza i dati di un modello proprietario senza autorizzazione, ecco sorgere la controversia sulla violazione della proprietà intellettuale. Dopo il rilascio di DeepSeek R1, alcuni esperti di IA hanno ipotizzato che l’azienda cinese abbia utilizzato tecniche di “distillazione di conoscenza” per “estrarre” informazioni da ChatGPT e da altri modelli di OpenAI. Questa ipotesi si basa su alcuni indizi chiave: gli stessi risultati ottenuti da DeepSeek sono fonte di sospetto, poiché appunto molto difficili da ottenere senza accesso a dati di alta qualità; alcuni ricercatori hanno notato che le risposte di DeepSeek mostrano strutture linguistiche e scelte lessicali molto simili a quelle di OpenAI, suggerendo un possibile apprendimento indiretto. Del resto, DeepSeek non ha mai dichiarato esplicitamente quali dati abbia utilizzato per addestrare il proprio modello, il che ha alimentato sospetti su possibili pratiche non trasparenti (cfr. Sarah Mercer, Samuel Spillard, Daniel P. Martin, Brief analysis of DeepSeek R1 and its implications for Generative AI, https://arxiv.org/pdf/2502.02523).
Tuttavia, dimostrare una violazione non è semplice, perché il mondo dell’IA non ha ancora regole chiare su come vengano raccolti e utilizzati i dati per l’addestramento. OpenAI stessa è sotto pressione perché non ha mai rivelato completamente su quali dati abbia addestrato GPT-4, sollevando dubbi sul rispetto del copyright da parte sua (cfr. Michael M. Grynbaum, Ryan Mac, The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work, https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-AI-microsoft-lawsuit.html). Se OpenAI dovesse denunciare DeepSeek, forse si aprirebbe finalmente il doveroso dibattito pubblico sulla trasparenza e sull’etica degli attori coinvolti.
Censura e controllo dell’informazione
L’IA non è solo una questione di algoritmi e capacità computazionale, ma anche di controllo dell’informazione. I modelli di linguaggio come DeepSeek R1 operano in un contesto in cui la regolamentazione dei contenutiè un elemento chiave sia per i governi che per le aziende.
I modelli di IA sviluppati in Cina operano sotto rigide normative governative che impongono linee guida precise sui contenuti che possono generare. Il Partito Comunista Cinese (PCC) ha sempre avuto un controllo stretto sull’informazione digitale e il mondo dell’IA non fa eccezione.
Il governo cinese richiede che tutti modelli IA rispettino le leggi locali sulla moderazione dei contenuti, evitando di trattare argomenti considerati sensibili o politicamente delicati. Per esempio, le IA cinesi devono riconoscere l’isola di Taiwan come parte della Cina; eventi storici controversi, come i fatti di Tiananmen del 1989, devono essere omessi o reinterpretati in linea con la versione ufficiale governativa; non possono fare riferimento alla repressione delle minoranze in Cina, come quella degli Uiguri, l’etnia turcofona di religione islamica dello Xinjiang.
Nel caso di DeepSeek R1, sembra che il modello segua i protocolli imposti dal governo cinese, evitando di fornire risposte su argomenti vietati o deviando la conversazione quando sollecitato. Un esempio: DeepSeek R1 afferma con certezza che le Isole Senkaku (disputate tra Cina e Giappone) sono territorio cinese, riflettendo la posizione ufficiale di Pechino.
L’impronta ecologica dell’IA
Ultimamente, la sostenibilità dell’IA è diventata una delle principali preoccupazioni del settore tecnologico, dato il consumo energetico sempre più elevato, a causa della crescente potenza computazionale necessaria per addestrare e far funzionare i modelli d’IA. DeepSeek si è distinta dai giganti come OpenAI e Google, proponendo un approccio più efficiente e sostenibile, basato sull’uso di GPU meno avanzate e su precise scelte tecniche volte a ridurre il consumo energetico. Tuttavia, si rischia il verificarsi del cosiddetto “paradosso di Jevons” (cfr. Paradosso di Jevons, https://it.wikipedia.org/wiki/Paradosso_di_Jevons), secondo cui una maggiore efficienza può portare a un incremento complessivo dei consumi. Se l’IA diventa più accessibile ed economica, più aziende potranno implementarla, generando una domanda sempre maggiore di risorse computazionali ed energetiche. L’espansione dell’uso dell’IA anche in settori non essenziali aggraverà ulteriormente l’impatto energetico globale, come dimostrato dalla proliferazione di chatbot e strumenti automatizzati per compiti di poco rilievo. Il settore dovrà affrontare la questione ambientale adottando soluzioni sostenibili, quali l’impiego di energia rinnovabile per i data center e lo sviluppo di modelli d’IA decentralizzati, eseguibili su dispositivi locali.
Ripensare l’IA, radicalmente
Dunque DeepSeek ha aperto una nuova fase nella “corsa all’IA”? Ha messo in crisi le Big Tech occidentali, dimostrando che modelli più efficienti e accessibili possono cambiare le regole del gioco? Come spesso accade per questo genere di domande, la risposta non è immediata.
In sintesi, il “DeepSeek pensiero” si appoggia su due pilastri: efficienza ottenuta grazie a precise scelte tecniche (RL, “distillazione di conoscenza”) e adesione alla “filosofia” open source. Relativamente al primo pilastro, si fa riferimento a soluzioni già note alla comunità degli esperti del settore, anche se certamente d’avanguardia: un po’ poco per parlare di un nuovo paradigma. Qualora si dimostrasse che DeepSeek si è effettivamente “appoggiata” ai modelli di OpenAI per evitare la costruzione e l’utilizzo di un dataset autonomo, sarebbe comunque arduo parlare di un cambio paradigmatico, a meno di identificare come elemento innovativo il buon senso di non “reinventare la ruota”. Il secondo pilastro, ossia il rilascio dei “pesi” del modello con licenza open source, rappresenta pertanto l’unico vero elemento di rottura.
L’ideazione di un paradigma radicalmente innovativo per lo sviluppo dell’IA rappresenta un’attività tutt’altro che oziosa, se il sogno è quello di realizzare una sorta di entità ancillare all’intelligenza umana, accessibile a tutti e costruita per affrontare problemi collettivi. Sarebbe però indispensabile partire dai principi del software libero (il termine “open source“, di fatto quasi equivalente, è stato coniato col solo scopo di rendere il concetto più digeribile per il mondo aziendale): vale a dire dalla libertà di eseguire i programmi per qualsiasi scopo, di studiare come funzionano e di adattarli alle proprie necessità, di ridistribuirne copie, di migliorarli e di distribuire i miglioramenti. Gli algoritmi e i dataset dovrebbero essere perciò disponibili pubblicamente, verificabili e migliorabili dalla collettività, in un ecosistema aperto che rifiuti la logica delle black-box e lo sfruttamento economico dei dati personali.
Spes est vigilantis somnium.
* le immagini sono state create localmente con Stable Diffusion, un modello open source di apprendimento automatico profondo per generare immagini a partire da descrizioni di testo.
netico ● consulente informatico e hacktivista
Tag:
cina deepseek IA imperialismo intelligenza artificiale usa