Cogito, Ergo Ludo: Ein Agent, der durch Denken und Planen das Spielen lernt
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
papers.authors: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
papers.abstract
Das Streben nach künstlichen Agenten, die komplexe Umgebungen meistern können, hat zu bemerkenswerten Erfolgen geführt, doch gängige Methoden des tiefen verstärkenden Lernens beruhen oft auf immensen Erfahrungen und kodieren ihr Wissen undurchsichtig in den Gewichten neuronaler Netze. Wir schlagen ein alternatives Paradigma vor, in dem ein Agent durch logisches Denken und Planen lernt. Wir stellen Cogito, ergo ludo (CEL) vor, eine neuartige Agentenarchitektur, die ein großes Sprachmodell (Large Language Model, LLM) nutzt, um ein explizites, sprachbasiertes Verständnis der Mechanik seiner Umgebung und seiner eigenen Strategie zu entwickeln. Ausgehend von einem tabula rasa-Zustand ohne Vorwissen (außer dem Aktionsset) durchläuft CEL einen Zyklus aus Interaktion und Reflexion. Nach jeder Episode analysiert der Agent seine vollständige Trajektorie, um zwei parallele Lernprozesse durchzuführen: Regelinduktion, bei der er sein explizites Modell der Dynamik der Umgebung verfeinert, sowie Strategie- und Spielzusammenfassung, bei der er Erfahrungen in einen umsetzbaren strategischen Spielplan destilliert. Wir evaluieren CEL anhand verschiedener Grid-World-Aufgaben (z. B. Minesweeper, Frozen Lake und Sokoban) und zeigen, dass der CEL-Agent erfolgreich lernt, diese Spiele zu meistern, indem er ihre Regeln autonom entdeckt und effektive Strategien aus spärlichen Belohnungen entwickelt. Ablationsstudien bestätigen, dass der iterative Prozess entscheidend für nachhaltiges Lernen ist. Unsere Arbeit zeigt einen Weg hin zu allgemeineren und interpretierbaren Agenten, die nicht nur effektiv handeln, sondern auch ein transparentes und sich verbesserndes Modell ihrer Welt durch explizites Schlussfolgern aus rohen Erfahrungen aufbauen.
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.