ChatGPT vs. Atari2600, un match dal risultato inatteso. Forse.

UnoScacchista

10 mesi fa

(UnoScacchista)
Si parla ormai così tanto di Intelligenza Artificiale (IA) che la si mette un po’ dappertutto, usando questo termine a mo’ di bacchetta magica in grado di risolvere qualunque problema. Figuriamoci se il mondo degli scacchi, già assuefatto allo strapotere dei vari motori, ne può essere esente.

Non sorprende quindi l’interesse che ha destato l’esperimento estemporaneo effettuato da un ingegnere americano, Robert Jr Caruso, che ha fatto giocare l’uno contro l’altro una versione avanzata di ChatGPT (ChatGPT-4o) e una vecchia console per videogiochi, Atari 2600 del 1977, con il programma scacchistico Atari Chess dell’epoca.

Una sfida che sembrava segnata in partenza, visto che era stata proprio ChatGPT a suggerire il match a Caruso dopo essersi vantata di essere un’otima giocatrice. Il risultato è stato invece imbarazzante, come potete leggere direttamente dai post di Caruso su LinkedIn: ChatGPT ha infilato una serie di errori da principiante perdendo sempre ed in maniera netta.

Confondere però la capacità di interagire come potrebbe fare un essere umano (caratteristica principale di ChatGPT) con la capacità di trovare soluzioni a problemi complessi è sbagliato, come lo è confondere le varie implementazioni dell’IA solo perché appartengono allo stesso filone tecnologico.

E’ un po’ come parlare genericamente di “macchina” senza specificare se stiamo parlando di una lavatrice o di un aereo (tecnicamente entrambi “macchine”): giudichereste le prestazioni di una lavatrice dalla velocità e dalla quota a cui può volare? Qui è la stessa cosa: credere che ChatGPT sappia giocare bene a scacchi solo perché risponde a tono e in modo eloquente, non vuol dire che può essere paragonata a Stockfish NNUE.

Alcuni termini che si incontrano spesso quando di parla di IA sono difficili da distinguere per i non addetti, che tendono a non sapere la differenza tra NNUE (Efficiently Updatable Neural Network) e GPT (Generative Pre-trained Transformers) o tra LLM (Large Language Model), ML (Machine Learning) e DL (Deep Learning).

La prima sigla (NNUE) la conosciamo ormai quasi tutti noi scacchisti, perché la vediamo ormai apparire vicino a “Stockfish” nei vari siti di analisi online. Sta a significare che il motore di Stockfish si appoggia ad una rete neurale, di fatto ampliando enormemente le sue capacità di valutazione delle posizioni.

GPT è davvero nota a tutti nella forma “ChatGPT”, ed è basata sull’uso di LLM per comprendere ed elaborare testi in forma simile a quella che userebbe un essere umano. Il suo utilizzo più comune è in forma di dialogo “Chat” e alcune versioni sono specializzate anche per analizzare e generare immagini o conversazioni in voce. E’ facile associare a questa capacità il concetto di “Intelligenza”, ma in realtà non c’è ancora quella creatività che va oltre ciò che è noto.

Questo perché l’LLM non aggiunge livelli di ragionamento speculativo, ma “solamente” (tra virgolette, perché non è affatto trascurabile) la capacità di interpretare frasi espresse in linguaggio colloquiale e, sulla base degli algoritmi che generano “risposte”, formulare frasi di nuovo in linguaggio colloquiale.

Il Machine Learning è invece un metodo di studio di dati e algoritmi statistici che permettono di comprendere relazioni e sviluppare ipotesi e conclusioni anche per situazioni diverse da quelle studiate. Qui si comincia a vedere quella capacità di soluzione di problemi non noti che spesso associamo all'”Intelligenza”. Questa modalità di apprendimento, può essere anche realizzata in modalità “Deep”, che adotta tecniche di classificazione e autoapprendimento. L’applicazione a noi più nota è AlphaZero (e non credo ci sia bisogno di dire altro).

E’ chiaro che saper interpretare una domanda posta in linguaggio naturale è una funzionalità estremamente comoda, ma se stiamo cercando la soluzione ad un problema complesso, faremmo meglio a non rivolgerci a ChatGPT, che può rispondere solamente con la risposta “più probabile” sulla base delle informazioni che le sono state fornite o che ha reperito sul web.

ChatGPT non “sa” nulla e risponde principalmente sulla base di input precedenti, che utilizza e riadatta grazie a schemi statistici associativi, senza garanzia che il risultato sia oggettivamente corretto. Le tipiche risposte di ChatGPT sono “verosimili” ma non necessariamente “vere”, specialmente all’inizio delle interazioni su uno specifico argomento e su argomenti dove la precisione è fondamentale, come la matemtica.

Come tutti gli LLM, ChatGPT scrive parole una dietro l’altra con il solo metodo statistico. “Semplicemente” calcola quale parola è più probabile che debba essere scritta dopo l’altra, sulla base del set di dati con il quale è stata istruita. Se gli viene chiesto che forma ha un pallone da calcio risponde con la cosa più probabile, perché non “sa” che cosa sia un pallone, il calcio e nemmeno una forma.

A corollario di ciò, è molto improbabile risponda “non lo so”, perché per un LLM è più facile trovare risposte che no. Ed è per lo stesso motivo che se gli viene risposto “Ti stai sbagliando” è probabile che dica “Hai ragione”, perché quelle sono le parole più probabili che ha nel suo database dopo che uno gli dice che ha sbagliato. Questo non impedisce agli LLM di applicare strategie sofisticate per completare i task che vengono assegnati (“Se anche l’Intelligenza Artificiale comincia a barare…”) ma mai di creare soluzioni dal nulla.

Cliccare sull’immagine per aprire il paper

Un recente, importante paper pubblicato da Apple (“The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” di Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio e Mehrdad Farajtabar) evidenzia i limiti strutturali degli LLM, indicando in quali campi eccellono e come falliscano nei task che richiedono coerenza logica.

Vi do un suggerimento: non usate ChatGPT per risolvere equazioni e problemi di matematica, perché vi risponderà secondo ciò che troverà più di frequente sul web o più simile alla domanda che gli avrete posto e non con un vero e proprio calcolo. Per questo motivo, è anche evidente che ChatGPT è facilmente influenzabile dall’umano con cui interagisce e, purtroppo, dalle eventuali fake news che vanno in giro.

Sempre per lo stesso motivo va molto bene per riassumere o confrontare documenti, migliorare la qualità di un testo (o tradurlo in un’altra lingua), specialmente se guidato dall’operatore umano a migliorare le risposte verso una certa direzione.

Il comportamento osservato da Caruso è stato quello di una ChatGPT non in grado di mantenere traccia della posizione, confondendo spesso la posizione dei pezzi e quindi giocando mosse assurde. Anche se può sembrare sorprendente, per me non lo è perché, come ho detto, saper dialogare in maniera disinvolta non significa che essere in grado di sviluppare un pensiero analitico o seguire l’attuazione di una sequenza logica di azioni.

Ovviamente intitolare un post “ChatGPT umiliata a scacchi da un programma di quasi 50 anni fa” colpisce l’immaginazione di noi umani che, ormai sulla difensiva, non vediamo l’ora di cogliere l’IA in fallo. Solo che non è quello che è successo. Semplicemente un programma specializzato, che sa fare solo una cosa (in questo caso giocare a scacchi) la fa meglio di un programma generalista e realizzato per fare altro (raccogliere informazioni e interagire in maniera human-friendly).

Quello che mi ha colpito, puttosto, è che ChatGPT abbia dichiarato a Caruso di essere un ottimo giocatore di scacchi, suggerendogli di organizzare la sfida contro Atari per dimostrarlo.

Insomma ChatGPT mi è sembrato più un adolescente principiante e un po’ arrogante che “non sa di non sapere” piuttosto che un giocatore artificiale “intelligente”.

Almeno per ora, perché i principianti imparano e gli adolescenti crescono.

Condividi su: