想像先行計画:世界モデルを用いた適応的先読みからのエージェント学習
Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
January 13, 2026
著者: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
cs.AI
要旨
世界モデルの最近の進歩は、環境状態の将来ダイナミクスをモデル化する可能性を示しており、エージェントが実環境にアクセスすることなく推論と行動を行うことを可能にしている。現在の手法は主に単一ステップまたは固定期間のロールアウトを行うもので、複雑なタスク計画における潜在能力が十分に活用されていない。本論文では、先読み想像力を通じたエージェント学習の統一フレームワークであるImagine-then-Plan(ITP)を提案する。これは、エージェントのポリシーモデルが学習済み世界モデルと相互作用し、多段階の「想像」軌跡を生成するものである。想像の時間的視野はタスクや段階によって異なる可能性があるため、最終目標とタスクの進捗状況のトレードオフによって、新しい適応的先読みメカニズムを導入する。結果として得られる想像軌跡は、達成された進捗や潜在的な衝突など、将来の結果に関する豊富な信号を提供し、これが現在の観測と融合されることで、部分観測可能かつ想像可能なマルコフ決定過程を形成し、ポリシー学習を導く。我々はITPを、学習不要なバリアントと強化学習によるバリアントの両方で具体化した。代表的なエージェントベンチマークにおける広範な実験により、ITPが競合するベースライン手法を大幅に上回ることを実証した。さらに詳細な分析により、我々の適応的先読みメカニズムがエージェントの推論能力を大幅に強化し、より広範で複雑なタスクへの対処に関する貴重な知見を提供することを検証した。
English
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.