ChatPaper.aiChatPaper

Cogito, Ergo Ludo: Un Agente che Impara a Giocare Ragionando e Pianificando

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
Autori: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

Abstract

La ricerca di agenti artificiali in grado di apprendere e padroneggiare ambienti complessi ha portato a successi notevoli, tuttavia i metodi prevalenti di apprendimento per rinforzo profondo spesso si basano su un'esperienza immensa, codificando la loro conoscenza in modo opaco all'interno dei pesi delle reti neurali. Proponiamo un paradigma diverso, in cui un agente impara a giocare ragionando e pianificando. Introduciamo Cogito, ergo ludo (CEL), una nuova architettura di agente che sfrutta un Large Language Model (LLM) per costruire una comprensione esplicita, basata sul linguaggio, delle meccaniche del suo ambiente e della propria strategia. Partendo da uno stato di tabula rasa senza conoscenze pregresse (tranne l'insieme di azioni), CEL opera in un ciclo di interazione e riflessione. Dopo ogni episodio, l'agente analizza la sua traiettoria completa per eseguire due processi di apprendimento simultanei: Induzione delle Regole, in cui affina il suo modello esplicito delle dinamiche dell'ambiente, e Sintesi della Strategia e del Playbook, in cui condensa le esperienze in un playbook strategico azionabile. Valutiamo CEL su diverse attività in ambienti a griglia (ad esempio, Minesweeper, Frozen Lake e Sokoban), e dimostriamo che l'agente CEL impara con successo a padroneggiare questi giochi scoprendo autonomamente le regole e sviluppando politiche efficaci a partire da ricompense sparse. Studi di ablazione confermano che il processo iterativo è cruciale per un apprendimento sostenuto. Il nostro lavoro dimostra una strada verso agenti più generali e interpretabili che non solo agiscono in modo efficace, ma costruiscono anche un modello trasparente e in miglioramento del loro mondo attraverso un ragionamento esplicito sull'esperienza grezza.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF42September 30, 2025