C’è un piccolo videogioco astratto che le intelligenze artificiali non riescono a risolvere. Gli esseri umani lo vincono quasi sempre

Immaginate di essere calati, senza preavviso, in una stanza vuota. Nessun cartello, nessun manuale, nessuna voce che vi dica cosa fare: solo una griglia di quadratini colorati e cinque tasti. Che succede? Succede che, dopo un attimo di disorientamento, cominciate a pigiare. Un oggetto si muove. «Aha», pensate. In dieci minuti avete capito le regole e risolto il livello. Ora mettete al vostro posto il modello di intelligenza artificiale più celebrato del 2026 — quello che scrive saggi, risolve olimpiadi di matematica, programma software professionali. Risultato: paralisi quasi totale.

Questo, in caricatura, è ARC-AGI-3, il benchmark pubblicato a marzo 2026 dalla ARC Prize Foundation. I numeri sono impietosi: gli esseri umani lo risolvono al 100%, i modelli di frontiera sotto l’1%. Gemini 3.1 Pro arriva allo 0,37%, GPT 5.4 allo 0,26%, Opus 4.6 allo 0,25%, Grok 4.20 allo 0,00% tondo. Non è un margine, è un abisso.

Il gioco è semplice e crudele: griglie 64×64, sedici colori, poche azioni. Nessuna istruzione, nessun obiettivo dichiarato. L’unico prompt al modello suona laconico: «Stai giocando a un gioco. Il tuo scopo è vincere». Punto. Da lì deve arrangiarsi: capire cosa sono quegli oggetti, quale tasto li muove, se esiste una fine e come riconoscerla. Deve, in altre parole, costruirsi il problema prima di risolverlo.

Perché noi ci riusciamo? Perché quando entriamo in quella stanza non siamo davvero a mani vuote. Portiamo con noi un corredo di aspettative che la psicologia cognitiva chiama core knowledge priors: gli oggetti sono entità persistenti, le cose che si muovono da sole tendono ad avere intenzioni, esistono un «dentro» e un «fuori», le azioni producono effetti. Nessuno ce l’ha insegnato a scuola.

Le abbiamo da sempre. Sono il pavimento su cui camminiamo quando incontriamo qualcosa di nuovo.

Fonte: ARC Prize

Ma c’è di più: non ci limitiamo a percepire, cerchiamo il senso. Assumiamo, prima ancora di sapere cosa, che ci sia qualcosa da capire. È qui che il discorso diventa filosofico. Kant diceva che la mente porta al mondo le lenti — spazio, tempo, causalità — senza le quali non vedrebbe nulla. Jung andò oltre: la psiche, sostenne, è anche predisposta a trattare l’esperienza come potenzialmente significativa. Cerchiamo storie dove ci sono eventi, figure dove ci sono macchie. Gli archetipi sarebbero le forme con cui organizziamo il caos in racconto.

Applicato ad ARC-AGI-3, lo spunto è vertiginoso: quando un umano entra in un ambiente sconosciuto, attiva quasi istantaneamente la postura dell’Esploratore. Assume che ci sia un ordine nascosto, che una soluzione esista, che qualcosa stia aspettando di essere capito. L’IA, per ora, non lo fa. Non perché non ragioni, ma perché le manca quella fame di senso preventiva che noi portiamo come una seconda pelle.

Un dettaglio curioso rafforza il sospetto. Quando i ricercatori forniscono ai modelli un’«impalcatura» fatta su misura — un guscio di codice che li accompagna passo per passo in specifici ambienti — le prestazioni esplodono: lo stesso Opus 4.6 che senza aiuto fa zero, con l’impalcatura giusta su una singola griglia arriva al 97%. Basta cambiare ambiente, però, e il castello crolla. È come se la potenza pura del modello ci fosse tutta, ma mancasse il gesto preliminare: quella torsione silenziosa dello sguardo che trasforma un mucchio di pixel in un mondo da esplorare. Noi la facciamo senza accorgercene. Loro, per ora, aspettano istruzioni.

Bisogna essere onesti: il benchmark non dimostra che Jung aveva ragione. Dimostra una cosa più modesta, e cioè che davanti all’ambiguità gli umani sono drammaticamente più efficienti. Il divario è compatibile con molte spiegazioni — psicologia dello sviluppo, predictive processing, cognizione incarnata, e forse anche archetipi. ARC-AGI-3 è uno specchio, non un tribunale. E attenzione a non romanticizzarci troppo: la stessa facoltà che ci fa vincere ci fa anche vedere volti nelle nuvole e complotti nelle coincidenze. È una meraviglia a doppio taglio.

La lezione, però, resta: l’intelligenza non è solo risolvere problemi, è formarli. Gran parte dei test che somministriamo alle IA presuppongono un problema già impacchettato. ARC-AGI-3 sposta la sfida un gradino prima: decidere cosa conta come problema. Noi lo facciamo con una facilità disarmante — tanto da accorgercene solo quando vediamo qualcosa che non ci riesce.

Se un giorno un’intelligenza artificiale entrerà in quella stanza vuota e comincerà a frugare tra i quadratini non perché le è stato chiesto, ma perché assume che qualcosa ci sia da trovare, allora forse sarà il momento di preoccuparsi davvero. Fino ad allora, il punteggio resta 100 a zero. E non è chiaro chi debba imbarazzarsi di più: loro, per non sapere ancora cercare, o noi, per non sapere ancora spiegare perché ci riusciamo così bene.

Antonio Rossi