ChatPaper.aiChatPaper

Cogito, Ergo Ludo: Ein Agent, der durch Denken und Planen das Spielen lernt

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
papers.authors: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

papers.abstract

Das Streben nach künstlichen Agenten, die komplexe Umgebungen meistern können, hat zu bemerkenswerten Erfolgen geführt, doch gängige Methoden des tiefen verstärkenden Lernens beruhen oft auf immensen Erfahrungen und kodieren ihr Wissen undurchsichtig in den Gewichten neuronaler Netze. Wir schlagen ein alternatives Paradigma vor, in dem ein Agent durch logisches Denken und Planen lernt. Wir stellen Cogito, ergo ludo (CEL) vor, eine neuartige Agentenarchitektur, die ein großes Sprachmodell (Large Language Model, LLM) nutzt, um ein explizites, sprachbasiertes Verständnis der Mechanik seiner Umgebung und seiner eigenen Strategie zu entwickeln. Ausgehend von einem tabula rasa-Zustand ohne Vorwissen (außer dem Aktionsset) durchläuft CEL einen Zyklus aus Interaktion und Reflexion. Nach jeder Episode analysiert der Agent seine vollständige Trajektorie, um zwei parallele Lernprozesse durchzuführen: Regelinduktion, bei der er sein explizites Modell der Dynamik der Umgebung verfeinert, sowie Strategie- und Spielzusammenfassung, bei der er Erfahrungen in einen umsetzbaren strategischen Spielplan destilliert. Wir evaluieren CEL anhand verschiedener Grid-World-Aufgaben (z. B. Minesweeper, Frozen Lake und Sokoban) und zeigen, dass der CEL-Agent erfolgreich lernt, diese Spiele zu meistern, indem er ihre Regeln autonom entdeckt und effektive Strategien aus spärlichen Belohnungen entwickelt. Ablationsstudien bestätigen, dass der iterative Prozess entscheidend für nachhaltiges Lernen ist. Unsere Arbeit zeigt einen Weg hin zu allgemeineren und interpretierbaren Agenten, die nicht nur effektiv handeln, sondern auch ein transparentes und sich verbesserndes Modell ihrer Welt durch explizites Schlussfolgern aus rohen Erfahrungen aufbauen.
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF22September 30, 2025