ゲームで思考する:大規模言語モデルを用いた強化学習によるゲーム内推論の学習
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
著者: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
要旨
大規模言語モデル(LLM)は、数学やコーディングなどの複雑な推論タスクにおいて優れた能力を発揮しますが、幼児が容易にこなすような単純なインタラクティブタスクには頻繁に苦戦します。この乖離は、宣言的知識(何かを知っていること)と手続き的知識(何かを実行する方法を知っていること)の間に存在する重要なギャップを浮き彫りにしています。従来の強化学習(RL)エージェントは環境との相互作用を通じて手続き的知識を獲得できますが、しばしばブラックボックスとして機能し、大量の訓練データを必要とします。一方、LLMは広範な世界知識と推論能力を備えていますが、この静的な知識をインタラクティブな設定における動的な意思決定に効果的に変換することができません。この課題に対処するため、我々はThink in Games(TiG)という新しいフレームワークを提案します。TiGは、LLMがゲーム環境との直接的な相互作用を通じて手続き的理解を発展させつつ、その本来の推論能力と説明能力を保持することを可能にします。具体的には、TiGはRLベースの意思決定を言語モデリングタスクとして再定式化します。LLMは言語ガイド付きのポリシーを生成し、環境からのフィードバックに基づくオンライン強化学習を通じて反復的に洗練されます。実験結果は、TiGが宣言的知識と手続き的知識のギャップを成功裏に埋め、従来のRL手法と比較して劇的に少ないデータと計算量で競争力のある性能を達成することを示しています。さらに、TiGはその意思決定に対して段階的な自然言語による説明を提供し、複雑なインタラクティブタスクにおける透明性と解釈可能性を大幅に向上させます。
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.