Cogito, Ergo Ludo: Un Agente che Impara a Giocare Ragionando e Pianificando
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
Autori: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
Abstract
La ricerca di agenti artificiali in grado di apprendere e padroneggiare ambienti complessi ha portato a successi notevoli, tuttavia i metodi prevalenti di apprendimento per rinforzo profondo spesso si basano su un'esperienza immensa, codificando la loro conoscenza in modo opaco all'interno dei pesi delle reti neurali. Proponiamo un paradigma diverso, in cui un agente impara a giocare ragionando e pianificando. Introduciamo Cogito, ergo ludo (CEL), una nuova architettura di agente che sfrutta un Large Language Model (LLM) per costruire una comprensione esplicita, basata sul linguaggio, delle meccaniche del suo ambiente e della propria strategia. Partendo da uno stato di tabula rasa senza conoscenze pregresse (tranne l'insieme di azioni), CEL opera in un ciclo di interazione e riflessione. Dopo ogni episodio, l'agente analizza la sua traiettoria completa per eseguire due processi di apprendimento simultanei: Induzione delle Regole, in cui affina il suo modello esplicito delle dinamiche dell'ambiente, e Sintesi della Strategia e del Playbook, in cui condensa le esperienze in un playbook strategico azionabile. Valutiamo CEL su diverse attività in ambienti a griglia (ad esempio, Minesweeper, Frozen Lake e Sokoban), e dimostriamo che l'agente CEL impara con successo a padroneggiare questi giochi scoprendo autonomamente le regole e sviluppando politiche efficaci a partire da ricompense sparse. Studi di ablazione confermano che il processo iterativo è cruciale per un apprendimento sostenuto. Il nostro lavoro dimostra una strada verso agenti più generali e interpretabili che non solo agiscono in modo efficace, ma costruiscono anche un modello trasparente e in miglioramento del loro mondo attraverso un ragionamento esplicito sull'esperienza grezza.
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.