Вообрази-и-Планируй: Обучение агента на основе адаптивного предвидения с использованием моделей мира
Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models
January 13, 2026
Авторы: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
cs.AI
Аннотация
Последние достижения в области моделей мира продемонстрировали потенциал для прогнозирования будущей динамики состояний среды, позволяя агентам принимать решения и действовать без доступа к реальным окружениям. Современные методы в основном выполняют одношаговые или фиксированные по горизонту прогоны, оставляя их потенциал для сложного планирования задач нераскрытым. Мы предлагаем Imagine-then-Plan (ITP) — унифицированную框架 для обучения агентов через упреждающее воображение, где модель политики агента взаимодействует с изученной моделью мира, порождая многошаговые «воображаемые» траектории. Поскольку горизонт воображения может варьироваться в зависимости от задач и этапов, мы вводим новый механизм адаптивного упреждающего планирования, балансируя между конечной целью и прогрессом задачи. Результирующие воображаемые траектории предоставляют богатые сигналы о будущих последствиях, таких как достигнутый прогресс и потенциальные конфликты, которые объединяются с текущими наблюдениями, формируя частично наблюдаемый и вообразимый марковский процесс принятия решений для обучения политики. Мы реализуем ITP в двух вариантах: без обучения и с обучением с подкреплением. Масштабные эксперименты на репрезентативных тестовых наборах для агентов демонстрируют, что ITP значительно превосходит конкурентоспособные базовые методы. Дальнейший анализ подтверждает, что наш адаптивный механизм упреждающего планирования существенно усиливает способность агентов к рассуждению, предоставляя ценные insights для решения более широкого круга сложных задач.
English
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.