L’intelligenza artificiale risolve problemi complessi, ma non può nulla contro i Pokémon
Nel febbraio 2025 un ricercatore di Anthropic ha avviato su Twitch un esperimento singolare: osservare un’intelligenza artificiale mentre tenta di completare Pokémon Rosso, titolo del 1996 diventato, quasi per caso, un banco di prova per valutare i limiti del ragionamento automatico. L’iniziativa porta la firma di David Hershey, membro del team Applied AI, che ha spiegato al Wall Street Journal: «Volevo uno spazio di sperimentazione dove testare diversi framework, e Pokémon mi sembrava il candidato perfetto».
L’apparente semplicità del gioco è proprio ciò che lo rende interessante per la ricerca. A differenza dei classici test logici, il titolo richiede esplorazione, memoria, pianificazione e capacità di adattamento continuo. Come ricorda lo stesso Hershey: «Pokémon è meno vincolato di Pong o altri giochi storicamente utilizzati per il test». E ancora: «È un problema davvero difficile per un programma, perché richiede l'assunzione di decisioni su lunghe sequenze, l'esplorazione di ambienti parzialmente osservabili, e la capacità di pianificare a lungo termine».
Secondo gli studiosi della Carnegie Mellon University, esperimenti di questo tipo misurano aspetti del ragionamento che i benchmark tradizionali trascurano: continuità decisionale, recupero dagli errori e gestione della memoria nel tempo. Le difficoltà sono emerse chiaramente in passaggi complessi del gioco, come il labirinto di Mt. Moon, dove un modello ha tentato strategie improvvisate dopo ore di blocco, costruendo ipotesi basate su correlazioni osservate ma errate. Episodi che illustrano bene i limiti dell’IA quando deve affrontare ambienti aperti e non perfettamente definiti.
Nel maggio dello stesso anno anche Google ha sostenuto il progetto “Gemini Plays Pokémon”. Un rapporto di Google DeepMind ha segnalato che Google ha osservato nel proprio modello segni di difficoltà sotto pressione: quando i Pokémon erano in pericolo di morte, si registrava «una degradazione qualitativa osservabile nella capacità di ragionamento del modello». In pratica, in situazioni critiche il sistema smetteva di usare correttamente gli strumenti disponibili e prendeva decisioni controproducenti. Pokémon introduce una combinazione di esplorazione, memoria e incertezza su scala lunga, con sessioni che possono durare decine di ore. I risultati raccontano una realtà paradossale: modelli capaci di superare esami giuridici o risolvere problemi matematici avanzati possono rimanere bloccati per centinaia di ore in un videogioco degli anni Novanta.