コギト、エルゴ・ルド:推論と計画によって遊ぶことを学ぶエージェント
Cogito, Ergo Ludo: An Agent that Learns to Play by Reasoning and Planning
September 29, 2025
著者: Sai Wang, Yu Wu, Zhongwen Xu
cs.AI
要旨
複雑な環境を習得する人工エージェントの追求は、目覚ましい成功をもたらしてきたが、現在の深層強化学習手法はしばしば膨大な経験に依存し、その知識をニューラルネットワークの重みに不透明に符号化している。我々は、エージェントが推論と計画を通じて学習するという異なるパラダイムを提案する。我々は、Cogito, ergo ludo(CEL)という新しいエージェントアーキテクチャを紹介する。CELは、大規模言語モデル(LLM)を活用して、環境のメカニズムと自身の戦略を明示的かつ言語ベースで理解する。事前知識なし(アクションセットを除く)のタブラ・ラサ状態から始まり、CELは相互作用と内省のサイクルで動作する。各エピソード後、エージェントは完全な軌跡を分析し、二つの並行した学習プロセスを実行する:ルール誘導(環境のダイナミクスの明示的モデルを洗練する)と戦略およびプレイブック要約(経験を実行可能な戦略プレイブックに凝縮する)。我々はCELを多様なグリッドワールドタスク(マインスイーパー、フローズンレイク、ソコバン)で評価し、CELエージェントがこれらのゲームを習得し、スパースな報酬からルールを自律的に発見し、効果的なポリシーを開発することを示す。アブレーション研究は、反復プロセスが持続的な学習に不可欠であることを確認する。我々の研究は、効果的に行動するだけでなく、生の経験に対する明示的な推論を通じて世界の透明で改善されるモデルを構築する、より一般的で解釈可能なエージェントへの道を示す。
English
The pursuit of artificial agents that can learn to master complex
environments has led to remarkable successes, yet prevailing deep reinforcement
learning methods often rely on immense experience, encoding their knowledge
opaquely within neural network weights. We propose a different paradigm, one in
which an agent learns to play by reasoning and planning. We introduce Cogito,
ergo ludo (CEL), a novel agent architecture that leverages a Large Language
Model (LLM) to build an explicit, language-based understanding of its
environment's mechanics and its own strategy. Starting from a tabula rasa state
with no prior knowledge (except action set), CEL operates on a cycle of
interaction and reflection. After each episode, the agent analyzes its complete
trajectory to perform two concurrent learning processes: Rule Induction, where
it refines its explicit model of the environment's dynamics, and Strategy and
Playbook Summarization, where it distills experiences into an actionable
strategic playbook. We evaluate CEL on diverse grid-world tasks (i.e.,
Minesweeper, Frozen Lake, and Sokoban), and show that the CEL agent
successfully learns to master these games by autonomously discovering their
rules and developing effective policies from sparse rewards. Ablation studies
confirm that the iterative process is critical for sustained learning. Our work
demonstrates a path toward more general and interpretable agents that not only
act effectively but also build a transparent and improving model of their world
through explicit reasoning on raw experience.