top of page

🔬"The Illusion of Thinking": lo studio Apple che smaschera i limiti dell'IA reasoning

  • 18 lug 2025
  • Tempo di lettura: 6 min


Una mano robotica e una umana chegiocano ad un rompicapo
AI generated immagine

C'è una frase che circola spesso nel mondo dell'intelligenza artificiale: "L'IA sta imparando a ragionare".

I modelli di reasoning come OpenAI , Claude Sonnet Thinking e DeepSeek promettono di "pensare" prima di rispondere, scomponendo i problemi in passaggi logici. Sembra il passo decisivo verso un'IA più intelligente, più capace, più umana.


Ma è davvero così?

A giugno 2025, un team di ricercatori Apple ha pubblicato uno studio destinato a fare discutere: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity". Il titolo è già una dichiarazione di intenti. Quello che Apple ha scoperto, testando i modelli più avanzati del momento su puzzle di logica a complessità crescente, è che il "ragionamento" di queste IA è, in larga misura, un'illusione.

Non è solo una questione accademica. È una scoperta che ha implicazioni profonde per chiunque stia valutando di investire in queste tecnologie per il proprio business.

Vediamo cosa ha scoperto Apple e cosa significa per il futuro dell'IA.


Cosa ha scoperto esattamente Apple con lo studio "The Illusion of Thinking"?

I ricercatori Apple hanno testato i modelli di reasoning più avanzati – tra cui OpenAI o1, Claude 3.7 Sonnet Thinking, DeepSeek R1 – utilizzando puzzle di logica classici come la Torre di Hanoi, il Blocks World e il River Crossing. Invece di usare i soliti benchmark matematici (spesso contaminati da dati di training), hanno creato ambienti controllati dove potevano variare con precisione la complessità del problema.

I risultati sono stati sorprendenti e, per molti versi, inquietanti:

  • Sui problemi semplici, i modelli di reasoning sono stati battuti dai modelli LLM "normali" (come GPT-4o). Troppo "overthinking" li porta a sbagliare dove basterebbe una risposta diretta.

  • Sui problemi di media complessità, i modelli di reasoning mostrano un leggero vantaggio.

  • Sui problemi complessi, tutti i modelli collassano. La precisione scende a zero.

Come scrive ZDNet: "I risultati hanno mostrato che anche i modelli più intelligenti raggiungono un punto di rendimenti decrescenti, aumentando il ragionamento per risolvere la complessità di un problema fino a un limite".


Cosa significa che i modelli "collassano" sui problemi complessi?

Significa che, superata una certa soglia di complessità, i modelli smettono semplicemente di funzionare. Non è che danno risposte sbagliate: la loro accuratezza crolla a zero.

Prendiamo la Torre di Hanoi. I modelli come Claude e o3-mini riescono a gestire il puzzle fino a 7 o 8 dischi. Oltre quella soglia, crollano. E la cosa più sorprendente? Anche quando ai modelli viene fornito l'algoritmo esatto per risolvere il problema e viene chiesto di seguirlo, le prestazioni non migliorano.

I modelli non sanno eseguire un algoritmo passo-passo, anche quando glielo si dà in mano. Come osserva 9to5Mac: "Non stanno ragionando, ma piuttosto estendendo in modo iterativo i pattern di inferenza degli LLM in modi più elaborati".


Cos'è l'"overthinking" e perché è un problema?

L'"overthinking" è uno dei fenomeni più controintuitivi emersi dallo studio Apple. Sui problemi semplici, i modelli di reasoning – che dovrebbero essere più intelligenti – vengono battuti dai modelli normali.

Perché? Perché i modelli di reasoning, progettati per "pensare" a lungo, continuano a rimuginare anche quando la risposta è ovvia. Trovano subito la soluzione giusta, ma poi continuano a sbagliare, complicandosi la vita da soli.

È come se uno studente eccellente, di fronte a una domanda semplicissima, si mettesse a cercare trappole inesistenti e finisse per rispondere male. Non è intelligenza: è rigidità.


I modelli di reasoning "pensano" davvero meno quando il problema è più difficile?

Paradossalmente, sì. E questo è uno dei risultati più sorprendenti dello studio Apple. I ricercatori hanno osservato che, man mano che la complessità del problema aumenta, i modelli di reasoning riducono il loro sforzo di "pensiero", invece di aumentarlo.

Come scrive 9to5Mac: "Quando la complessità aumenta, i modelli smettono letteralmente di provarci. Riducono il loro 'pensiero' interno man mano che le sfide crescono, nonostante abbiano ancora budget di calcolo a disposizione".

Questo comportamento suggerisce che i modelli rilevano internamente quando un problema è oltre le loro capacità e abbandonano, piuttosto che tentare un approccio diverso. Non è un segno di intelligenza: è un limite strutturale.


Quali sono le implicazioni per le aziende che usano l'IA?

Le implicazioni sono profonde e riguardano chiunque stia considerando di investire in modelli di reasoning per applicazioni business-critical.

1. Non fidarsi delle apparenzeI modelli di reasoning producono risposte eloquenti e articolate che sembrano ragionate. Ma come sottolinea ISPR, "l'eloquenza non è intelligenza, e l'imitazione non è comprensione". Un'IA che spiega il suo ragionamento in modo convincente non significa che stia effettivamente ragionando.

2. Attenzione ai confini della complessitàI modelli funzionano bene su problemi di media complessità, ma collassano su quelli veramente complessi. Se il tuo caso d'uso richiede ragionamento articolato su più livelli, i modelli attuali potrebbero non essere all'altezza.

3. Non è un problema di dati o di potenza di calcoloCome chiarisce lo studio, questi modelli non falliscono perché "non si sono allenati abbastanza" o "hanno bisogno di più dati". Falliscono perché "mancano fondamentalmente di un modo per rappresentare ed eseguire la logica algoritmica passo-passo". L'architettura attuale ha limiti strutturali che più dati o più calcolo non risolveranno.


La comunità scientifica ha accolto lo studio senza riserve?

No. Lo studio Apple ha scatenato un acceso dibattito nella comunità AI.

Da un lato, i critici hanno accolto i risultati come la prova che i modelli di reasoning sono "pappagalli stocastici" senza vera capacità cognitiva. Figure come Yann LeCun (Chief AI Scientist di Meta) e Gary Marcus vedono nello studio una conferma delle loro tesi di lunga data: i transformer non sono la strada verso l'AGI.

Dall'altro lato, i difensori – guidati da Lawsen et al. (2025) – hanno contestato la metodologia dello studio, definendola "difettosa" e le conclusioni "esagerate". Alcuni sostengono che il crollo delle prestazioni sui problemi complessi sia dovuto a limiti di post-training: i modelli sono stati addestrati a non generare risposte troppo lunghe, e questo li penalizza quando il problema richiederebbe un'elaborazione estesa.

Una replica successiva (agosto 2025) ha replicato alcuni esperimenti, confermando che i LRM inciampano quando la complessità cresce moderatamente (circa 8 dischi nella Torre di Hanoi), ma ha anche evidenziato che su problemi risolvibili i modelli possono gestire istanze con oltre 100 coppie di agenti. La verità, come spesso accade, è più sfumata di quanto i titoli dei giornali lascino intendere.


Cosa significa tutto questo per il futuro dell'IA?

La conclusione di Apple è chiara: i modelli attuali non sviluppano vere capacità di ragionamento e hanno limiti strutturali insuperabili con gli approcci attuali.

Servono nuove architetture, non solo più dati o più potenza di calcolo. Lo studio non è un atto d'accusa contro l'IA, ma un invito a ripensare il modo in cui stiamo cercando di costruire macchine che pensano.

Per le aziende, questo significa una cosa: l'IA di oggi è uno strumento potente, ma non è un cervello. Usala per ciò che sa fare bene – riconoscere pattern, generare testi, assistere in compiti di media complessità – ma non delegarle decisioni che richiedono vero ragionamento. Almeno, non ancora.


Conclusione

Lo studio Apple "The Illusion of Thinking" ha smontato uno dei miti più diffusi dell'IA contemporanea: che i modelli di reasoning stiano "imparando a pensare". La verità è più complessa e, per certi versi, più umile.

I modelli attuali sono macchine di pattern matching straordinariamente sofisticate. Eccellono nel riconoscere schemi e produrre risposte plausibili, ma crollano di fronte a problemi veramente complessi. Non sviluppano una comprensione profonda. Non eseguono algoritmi. Non "pensano" nel senso umano del termine.

Ma questo non significa che l'IA sia inutile. Significa che dobbiamo usarla con consapevolezza, conoscendo i suoi limiti e sfruttando i suoi punti di forza. E significa che il percorso verso un'IA che ragiona davvero è ancora lungo, e richiederà architetture nuove e approcci diversi.

L'illusione del pensiero è stata smascherata. Ora inizia il lavoro vero.

Cosa ne pensi? L'IA reasoning è davvero un'illusione? Scrivici la tua opinione. E se vuoi


La decisione che il tuo istinto già sa essere corretta

Le aziende che vincono con l’AI non sono quelle con i modelli più avanzati.

Sono quelle che affidano i progetti a team esperti, specializzati, con decenni di esperienza su sistemi mission-critical.


Da oltre 25 anni accompagniamo aziende come Prada, Luxottica, Fineco Bank nella trasformazione digitale.



📢 VUOI SAPERNE DI PIÙ?





*(Studio completo: "The Illusion of Thinking" - Apple Research, giugno 2025)*


Commenti

Valutazione 0 stelle su 5.
Non ci sono ancora valutazioni

Aggiungi una valutazione
bottom of page