Cogito, Ergo Ludo: Een Agent die Leert Spelen door Redeneren en Plannen

Samenvatting

De zoektocht naar kunstmatige agenten die kunnen leren om complexe omgevingen te beheersen, heeft tot opmerkelijke successen geleid, maar de heersende methoden voor diepe reinforcement learning vertrouwen vaak op een enorme hoeveelheid ervaring, waarbij hun kennis ondoorzichtig wordt gecodeerd in de gewichten van neurale netwerken. Wij stellen een ander paradigma voor, waarin een agent leert te spelen door te redeneren en te plannen. We introduceren Cogito, ergo ludo (CEL), een nieuwe agentarchitectuur die gebruikmaakt van een Large Language Model (LLM) om een expliciet, taalgebaseerd begrip te ontwikkelen van de mechanica van zijn omgeving en zijn eigen strategie. Beginnend vanuit een tabula rasa-toestand zonder voorkennis (behalve de actieset), opereert CEL in een cyclus van interactie en reflectie. Na elke aflevering analyseert de agent zijn volledige traject om twee gelijktijdige leerprocessen uit te voeren: Regelinductie, waarbij het zijn expliciete model van de dynamiek van de omgeving verfijnt, en Strategie- en Playbook-samenvatting, waarbij het ervaringen destilleert tot een uitvoerbaar strategisch playbook. We evalueren CEL op diverse grid-world taken (zoals Minesweeper, Frozen Lake en Sokoban), en laten zien dat de CEL-agent met succes leert deze spellen te beheersen door autonoom de regels te ontdekken en effectieve beleidsregels te ontwikkelen op basis van schaarse beloningen. Ablatiestudies bevestigen dat het iteratieve proces cruciaal is voor blijvend leren. Ons werk toont een pad naar meer algemene en interpreteerbare agenten die niet alleen effectief handelen, maar ook een transparant en verbeterend model van hun wereld opbouwen door expliciete redenering op basis van ruwe ervaring.

English

The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.

Cogito, Ergo Ludo: Een Agent die Leert Spelen door Redeneren en Plannen

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

Samenvatting

Support