Cogito, Ergo Ludo: Een Agent die Leert Spelen door Redeneren en Plannen
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
Auteurs: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
Samenvatting
De zoektocht naar kunstmatige agenten die kunnen leren om complexe omgevingen te beheersen, heeft tot opmerkelijke successen geleid, maar de heersende methoden voor diepe reinforcement learning vertrouwen vaak op een enorme hoeveelheid ervaring, waarbij hun kennis ondoorzichtig wordt gecodeerd in de gewichten van neurale netwerken. Wij stellen een ander paradigma voor, waarin een agent leert te spelen door te redeneren en te plannen. We introduceren Cogito, ergo ludo (CEL), een nieuwe agentarchitectuur die gebruikmaakt van een Large Language Model (LLM) om een expliciet, taalgebaseerd begrip te ontwikkelen van de mechanica van zijn omgeving en zijn eigen strategie. Beginnend vanuit een tabula rasa-toestand zonder voorkennis (behalve de actieset), opereert CEL in een cyclus van interactie en reflectie. Na elke aflevering analyseert de agent zijn volledige traject om twee gelijktijdige leerprocessen uit te voeren: Regelinductie, waarbij het zijn expliciete model van de dynamiek van de omgeving verfijnt, en Strategie- en Playbook-samenvatting, waarbij het ervaringen destilleert tot een uitvoerbaar strategisch playbook. We evalueren CEL op diverse grid-world taken (zoals Minesweeper, Frozen Lake en Sokoban), en laten zien dat de CEL-agent met succes leert deze spellen te beheersen door autonoom de regels te ontdekken en effectieve beleidsregels te ontwikkelen op basis van schaarse beloningen. Ablatiestudies bevestigen dat het iteratieve proces cruciaal is voor blijvend leren. Ons werk toont een pad naar meer algemene en interpreteerbare agenten die niet alleen effectief handelen, maar ook een transparant en verbeterend model van hun wereld opbouwen door expliciete redenering op basis van ruwe ervaring.
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.