상상-그리고-계획: 세계 모델을 통한 적응형 선행 탐색에서의 에이전트 학습
Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
January 13, 2026
저자: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
cs.AI
초록
월드 모델의 최근 발전은 환경 상태의 미래 역학을 모델링하는 데 유망한 가능성을 보여주며, 에이전트가 실제 환경에 접근하지 않고도 추론하고 행동할 수 있게 합니다. 현재 방법론은 주로 단일 단계 또는 고정된 예측 범위의 롤아웃을 수행하여 복잡한 작업 계획에 대한 잠재력이 충분히 활용되지 않고 있습니다. 우리는 에이전트의 정책 모델이 학습된 월드 모델과 상호작용하여 다단계 "상상" 궤적을 생성하는, 선행 상상을 통한 에이전트 학습을 위한 통합 프레임워크인 Imagine-then-Plan(ITP)을 제안합니다. 상상 범위는 작업과 단계에 따라 달라질 수 있으므로, 최종 목표와 작업 진행 사이의 균형을 맞추는 새로운 적응형 선행 기법을 도입했습니다. 그 결과 생성된 상상 궤적은 달성된 진행도 및 잠재적 충돌과 같은 미래 결과에 대한 풍부한 신호를 제공하며, 이는 현재 관측값과 융합되어 정책 학습을 안내하는 부분 관측 가능 및 상상 가능 마르코프 결정 과정을 구성합니다. 우리는 ITP를 학습 불필요 변형과 강화 학습 변형으로 구현합니다. 대표적인 에이전트 벤치마크에 대한 광범위한 실험을 통해 ITP가 경쟁력 있는 베이스라인을 크게 능가함을 입증합니다. 추가 분석을 통해 우리의 적응형 선행 기법이 에이전트의 추론 능력을 크게 향상시키며, 더 넓고 복잡한 작업 해결에 대한 유용한 통찰을 제공함을 검증합니다.
English
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.