ChatPaper.aiChatPaper

コギト、エルゴ・ルド:推論と計画によって遊ぶことを学ぶエージェント

Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning

September 29, 2025
著者: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI

要旨

複雑な環境を習得する人工エージェントの追求は、目覚ましい成功をもたらしてきたが、現在の深層強化学習手法はしばしば膨大な経験に依存し、その知識をニューラルネットワークの重みに不透明に符号化している。我々は、エージェントが推論と計画を通じて学習するという異なるパラダイムを提案する。我々は、Cogito, ergo ludo(CEL)という新しいエージェントアーキテクチャを紹介する。CELは、大規模言語モデル(LLM)を活用して、環境のメカニズムと自身の戦略を明示的かつ言語ベースで理解する。事前知識なし(アクションセットを除く)のタブラ・ラサ状態から始まり、CELは相互作用と内省のサイクルで動作する。各エピソード後、エージェントは完全な軌跡を分析し、二つの並行した学習プロセスを実行する:ルール誘導(環境のダイナミクスの明示的モデルを洗練する)と戦略およびプレイブック要約(経験を実行可能な戦略プレイブックに凝縮する)。我々はCELを多様なグリッドワールドタスク(マインスイーパー、フローズンレイク、ソコバン)で評価し、CELエージェントがこれらのゲームを習得し、スパースな報酬からルールを自律的に発見し、効果的なポリシーを開発することを示す。アブレーション研究は、反復プロセスが持続的な学習に不可欠であることを確認する。我々の研究は、効果的に行動するだけでなく、生の経験に対する明示的な推論を通じて世界の透明で改善されるモデルを構築する、より一般的で解釈可能なエージェントへの道を示す。
English
The pursuit of artificial agents that can learn to master complex environments has led to remarkable successes, yet prevailing deep reinforcement learning methods often rely on immense experience, encoding their knowledge opaquely within neural network weights. We propose a different paradigm, one in which an agent learns to play by reasoning and planning. We introduce Cogito, ergo ludo (CEL), a novel agent architecture that leverages a Large Language Model (LLM) to build an explicit, language-based understanding of its environment's mechanics and its own strategy. Starting from a tabula rasa state with no prior knowledge (except action set), CEL operates on a cycle of interaction and reflection. After each episode, the agent analyzes its complete trajectory to perform two concurrent learning processes: Rule Induction, where it refines its explicit model of the environment's dynamics, and Strategy and Playbook Summarization, where it distills experiences into an actionable strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e., Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent successfully learns to master these games by autonomously discovering their rules and developing effective policies from sparse rewards. Ablation studies confirm that the iterative process is critical for sustained learning. Our work demonstrates a path toward more general and interpretable agents that not only act effectively but also build a transparent and improving model of their world through explicit reasoning on raw experience.
PDF22September 30, 2025