ChatPaper.aiChatPaper

ゲームで思考する:大規模言語モデルを用いた強化学習によるゲーム内推論の学習

Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

August 29, 2025
著者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI

要旨

大規模言語モデル(LLM)は、数学やコーディングなどの複雑な推論タスクにおいて優れた能力を発揮しますが、幼児が容易にこなすような単純なインタラクティブタスクには頻繁に苦戦します。この乖離は、宣言的知識(何かを知っていること)と手続き的知識(何かを実行する方法を知っていること)の間に存在する重要なギャップを浮き彫りにしています。従来の強化学習(RL)エージェントは環境との相互作用を通じて手続き的知識を獲得できますが、しばしばブラックボックスとして機能し、大量の訓練データを必要とします。一方、LLMは広範な世界知識と推論能力を備えていますが、この静的な知識をインタラクティブな設定における動的な意思決定に効果的に変換することができません。この課題に対処するため、我々はThink in Games(TiG)という新しいフレームワークを提案します。TiGは、LLMがゲーム環境との直接的な相互作用を通じて手続き的理解を発展させつつ、その本来の推論能力と説明能力を保持することを可能にします。具体的には、TiGはRLベースの意思決定を言語モデリングタスクとして再定式化します。LLMは言語ガイド付きのポリシーを生成し、環境からのフィードバックに基づくオンライン強化学習を通じて反復的に洗練されます。実験結果は、TiGが宣言的知識と手続き的知識のギャップを成功裏に埋め、従来のRL手法と比較して劇的に少ないデータと計算量で競争力のある性能を達成することを示しています。さらに、TiGはその意思決定に対して段階的な自然言語による説明を提供し、複雑なインタラクティブタスクにおける透明性と解釈可能性を大幅に向上させます。
English
Large language models (LLMs) excel at complex reasoning tasks such as mathematics and coding, yet they frequently struggle with simple interactive tasks that young children perform effortlessly. This discrepancy highlights a critical gap between declarative knowledge (knowing about something) and procedural knowledge (knowing how to do something). Although traditional reinforcement learning (RL) agents can acquire procedural knowledge through environmental interaction, they often operate as black boxes and require substantial training data. In contrast, LLMs possess extensive world knowledge and reasoning capabilities, but are unable to effectively convert this static knowledge into dynamic decision-making in interactive settings. To address this challenge, we propose Think in Games (TiG), a novel framework that empowers LLMs to develop procedural understanding through direct interaction with game environments, while retaining their inherent reasoning and explanatory abilities. Specifically, TiG reformulates RL-based decision-making as a language modeling task: LLMs generate language-guided policies, which are refined iteratively through online reinforcement learning based on environmental feedback. Our experimental results show that TiG successfully bridges the gap between declarative and procedural knowledge, achieving competitive performance with dramatically lower data and computational demands compared to conventional RL methods. Moreover, TiG provides step-by-step natural language explanations for its decisions, greatly improving transparency and interpretability in complex interactive tasks.
PDF213September 1, 2025