Dyna-Mind: 経験からシミュレーションを学習するためのより優れたAIエージェント
Dyna-Mind: Learning to Simulate from Experience for Better AI Agents
October 10, 2025
著者: Xiao Yu, Baolin Peng, Michel Galley, Hao Cheng, Qianhui Wu, Janardhan Kulkarni, Suman Nath, Zhou Yu, Jianfeng Gao
cs.AI
要旨
推論モデルは最近、数学やコーディングなどの分野で顕著な進歩を遂げている。しかし、数学やコーディングにおける専門家レベルの能力は、ウェブナビゲーションやコンピュータ/スマートフォンの使用といった長期的でインタラクティブなタスクにおけるパフォーマンスと対照的である。人間の認知に関する文献に触発され、我々は現在のAIエージェントが複雑なインタラクティブ環境での理解とパフォーマンスを向上させるために、「代理的試行錯誤」—行動する前に代替の未来を精神的にシミュレートする能力—を必要としていると主張する。我々は、Dyna-Mindという二段階のトレーニングフレームワークを導入し、(V)LMエージェントにそのようなシミュレーションを推論に統合することを明示的に教える。第1段階では、シミュレーションを用いた推論(ReSim)を導入し、エージェントが環境との相互作用を通じて収集した実際の経験から構築された拡張探索木から構造化された推論トレースを生成するように訓練する。これにより、ReSimはエージェントの推論を忠実な世界のダイナミクスに基づかせ、その推論において将来の状態を予測する能力を備えさせる。第2段階では、Dyna-GRPOを提案し、実際のロールアウトからのフィードバックとして結果報酬と中間状態の両方を使用して、エージェントのシミュレーションと意思決定能力をさらに強化するオンライン強化学習手法を提供する。二つの合成ベンチマーク(SokobanとALFWorld)と一つの現実的なベンチマーク(AndroidWorld)での実験により、(1) ReSimがAIエージェントにシミュレーション能力を効果的に注入すること、(2) Dyna-GRPOが結果とインタラクションレベルのシグナルを活用して、長期的で計画集約的なタスクのためのより良いポリシーを学習することが示された。これらの結果は、シミュレーションがAIエージェントがますます挑戦的な環境でより効果的に推論、計画、行動するための中心的な役割を果たすことを強調している。
English
Reasoning models have recently shown remarkable progress in domains such as
math and coding. However, their expert-level abilities in math and coding
contrast sharply with their performance in long-horizon, interactive tasks such
as web navigation and computer/phone-use. Inspired by literature on human
cognition, we argue that current AI agents need ''vicarious trial and error'' -
the capacity to mentally simulate alternative futures before acting - in order
to enhance their understanding and performance in complex interactive
environments. We introduce Dyna-Mind, a two-stage training framework that
explicitly teaches (V)LM agents to integrate such simulation into their
reasoning. In stage 1, we introduce Reasoning with Simulations (ReSim), which
trains the agent to generate structured reasoning traces from expanded search
trees built from real experience gathered through environment interactions.
ReSim thus grounds the agent's reasoning in faithful world dynamics and equips
it with the ability to anticipate future states in its reasoning. In stage 2,
we propose Dyna-GRPO, an online reinforcement learning method to further
strengthen the agent's simulation and decision-making ability by using both
outcome rewards and intermediate states as feedback from real rollouts.
Experiments on two synthetic benchmarks (Sokoban and ALFWorld) and one
realistic benchmark (AndroidWorld) demonstrate that (1) ReSim effectively
infuses simulation ability into AI agents, and (2) Dyna-GRPO leverages outcome
and interaction-level signals to learn better policies for long-horizon,
planning-intensive tasks. Together, these results highlight the central role of
simulation in enabling AI agents to reason, plan, and act more effectively in
the ever more challenging environments.