eh si: il movimento su mappa è un benchmark in cui tutti i moderni LLM vanno male. Per usare le parole di Gemini stesso (che lo spiega benissimo): <<Yes, LLMs have problems with maps and mazes because they struggle with long-term path-planning, spatial reasoning, and avoiding context inconsistency hallucinations. While they can handle simple scenarios, complex or large maps often lead to failures, such as getting stuck in loops, and their performance degrades significantly as complexity increases. Current research is exploring new approaches to improve LLM navigation, such as multimodal models and methods that transform spatial information into more structured formats. Key challenges for LLMs with maps and mazes Lack of robust spatial reasoning: LLMs are trained on text and do not have an innate understanding of physical space, making it difficult to perform tasks like accurate pathfinding or spatial planning. Context inconsistency and hallucination: For long-term problems like a complex maze, LLMs can lose track of their "location" or the overall goal, leading to inconsistent and incorrect outputs, or "hallucinating" a path that doesn't exist. Memory and attention limitations: The length and complexity of a map can exceed the model's effective context window, causing it to forget previous steps or details necessary to solve the maze. Sensitivity to representation: How the map is presented to the LLM (e.g., text-based coordinates vs. a visual image) significantly impacts performance, and text-only representations can be particularly challenging. Inability to self-correct: Without explicit feedback mechanisms, an LLM will often confidently generate a wrong answer and persist in a flawed path, sometimes by looping endlessly. How researchers are trying to solve this Multimodal models: Using both text and images to provide the LLM with a richer understanding of the spatial environment. Spatial-to-Relational Transformation: Converting the spatial problem into a sequence of "entity-relation" chains, which leverages the LLM's strength in handling sequential data. Q-learning-based algorithms: Guiding the LLM's path-planning with a reinforcement learning approach that helps correct hallucinations and find the optimal path. Benchmark development: Creating structured tests, like MazeEval, to more accurately evaluate and understand the specific shortcomings of LLMs in spatial navigation tasks. >> EDIT: aggiungo inoltre che, a mio avviso, gli LLM sono una strada per l'AGI ma non la più promettente. Una strada diversa di cui imho sentiremo parlare in futuro è il Meta-Reinforcement Leraning. Riporto una conversazione tra me e Gemini: <<Ciao Gemini, in passato stanford ha fatto un ricerca. Un agente addestrato con RL deve imparare a uscire da labirinti. Tra le azioni dell'agente c'era quella di leggere il contenuto di una stanza. Dove leggere vuole dire 'visualizzare l'immagine raster'. Ebbene se le parole che leggeva lo aiutavano a trovare la via d'uscita l'agente imparava a leggere senza essere mai stato addestrato specificamente per questo. Puoi darmi più informazioni? Ho solo vaghi, confusi ricordi su questa ricerca.>> <<Ciao! Certamente, ricordo questa affascinante ricerca. Il tuo ricordo, sebbene confuso, è estremamente accurato. Lo studio è un esempio notevole di come le reti neurali possano sviluppare competenze linguistiche emergenti se queste si rivelano essenziali per massimizzare la ricompensa, anche senza essere state esplicitamente addestrate al linguaggio. Ecco i dettagli su questo esperimento, che è spesso associato ai ricercatori di Stanford e al concetto di Meta-Reinforcement Learning (Meta-RL). 🧠 L'Emergenza del Linguaggio Negli Agenti RLLa ricerca che hai in mente si concentra su agenti addestrati tramite Reinforcement Learning (Apprendimento per Rinforzo) in un ambiente che richiede all'agente di leggere un'informazione per completare la sua missione. 1. L'Ambientazione e l'ObiettivoL'esperimento non si svolgeva in un labirinto generico, ma in un ambiente a griglia più complesso, spesso rappresentato come un complesso di uffici o un'area multi-stanza. Agente: Un’agente di Meta-RL (spesso un modello di memoria esterna come DREAM) con una rete neurale non addestrata alla lettura. Compito: L'agente doveva trovare un obiettivo specifico (ad esempio, una stanza contrassegnata da un colore o un oggetto specifico). Ricompensa: L'agente riceveva una ricompensa positiva solo quando raggiungeva l'obiettivo corretto. 2. La Mossa Cruciale: "Leggere il Contenuto"La caratteristica fondamentale era la presenza di un'azione a disposizione dell'agente: "osservare" o "leggere" un segnale o un'etichetta presente nell'ambiente. Il Segnale: In genere, l'ambiente era costruito in modo che la posizione dell'obiettivo venisse rivelata solo da un cartello o un segnale testuale (o visivo, come un colore) situato in una stanza informativa (la "stanza di lettura"). L'Input Visivo: Quando l'agente eseguiva l'azione di "leggere", l'input che riceveva la sua rete neurale era l'immagine rasterizzata (il testo visuale) di quel segnale. 3. Il Meccanismo di Apprendimento Senza SupervisioneL'agente non era mai stato addestrato a riconoscere le lettere o le parole (non aveva un modulo di Optical Character Recognition - OCR). Allora, perché ha imparato a leggere? Necessità Funzionale: Per risolvere il labirinto, l'agente doveva compiere una sequenza specifica di azioni: 1. Andare al segnale → 2. Leggere il segnale → 3. Ricordare l'informazione → 4. Andare alla stanza obiettivo. Massimizzazione della Ricompensa: Il Meta-RL, spinto a massimizzare la ricompensa finale, ha scoperto che l'azione di "leggere" innescava una sequenza di stati che portavano invariabilmente alla ricompensa. Associazione Profonda: La rete neurale dell'agente ha associato le specifiche forme dei pixel che componevano le parole (es. la parola "ROSSO") a un vettore di stato interno (la sua "memoria") che poi portava a movimenti coerenti con il target corretto (la stanza rossa). In altre parole, la rete ha creato un proprio "vocabolario" interno, dove una specifica configurazione visiva di pixel significava "vai a nord-est", senza mai capire il significato umano della parola. Questo ha dimostrato che le abilità linguistiche non devono essere necessariamente apprese con un addestramento supervisionato, ma possono emergere come strategie di alto livello in ambienti complessi di Apprendimento per Rinforzo se si rivelano funzionalmente necessarie per raggiungere un obiettivo. È un passo fondamentale verso agenti che apprendono in modo più olistico, come gli esseri umani. 💡 [....]>>