Cogito, Ergo Ludo : Un agent qui apprend à jouer par raisonnement et planification
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
papers.authors: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
papers.abstract
La quête d'agents artificiels capables d'apprendre à maîtriser des environnements complexes a conduit à des succès remarquables, mais les méthodes dominantes d'apprentissage par renforcement profond reposent souvent sur une expérience immense, encodant leurs connaissances de manière opaque dans les poids des réseaux de neurones. Nous proposons un paradigme différent, dans lequel un agent apprend à jouer en raisonnant et en planifiant. Nous introduisons Cogito, ergo ludo (CEL), une architecture d'agent novatrice qui exploite un modèle de langage de grande taille (LLM) pour construire une compréhension explicite, basée sur le langage, des mécanismes de son environnement et de sa propre stratégie. Partant d'un état de tabula rasa sans connaissance préalable (à l'exception de l'ensemble des actions), CEL fonctionne selon un cycle d'interaction et de réflexion. Après chaque épisode, l'agent analyse sa trajectoire complète pour effectuer deux processus d'apprentissage simultanés : l'Induction de Règles, où il affine son modèle explicite de la dynamique de l'environnement, et la Synthèse de Stratégie et de Playbook, où il distille ses expériences en un playbook stratégique actionnable. Nous évaluons CEL sur diverses tâches de monde en grille (c'est-à-dire, Démineur, Lac Gelé et Sokoban), et montrons que l'agent CEL apprend avec succès à maîtriser ces jeux en découvrant de manière autonome leurs règles et en développant des politiques efficaces à partir de récompenses éparses. Des études d'ablation confirment que le processus itératif est crucial pour un apprentissage soutenu. Notre travail démontre une voie vers des agents plus généraux et interprétables qui non seulement agissent efficacement, mais construisent également un modèle transparent et amélioré de leur monde grâce à un raisonnement explicite sur l'expérience brute.
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.