ChatPaper.aiChatPaper

Imagine-then-Plan : L'Apprentissage de l'Agent par Anticipation Adaptative avec des Modèles du Monde

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

January 13, 2026
papers.authors: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
cs.AI

papers.abstract

Les récents progrès en modélisation du monde ont montré un potentiel prometteur pour la modélisation de la dynamique future des états environnementaux, permettant aux agents de raisonner et d'agir sans accéder aux environnements réels. Les méthodes actuelles effectuent principalement des déploiements en une étape ou avec un horizon fixe, laissant leur potentiel pour la planification de tâches complexes sous-exploité. Nous proposons Imagine-puis-Plan (ITP), un cadre unifié pour l'apprentissage des agents via l'imagination prospective, où le modèle de politique d'un agent interagit avec le modèle du monde appris, produisant des trajectoires « imaginées » multi-étapes. Étant donné que l'horizon d'imagination peut varier selon les tâches et les étapes, nous introduisons un mécanisme adaptatif novateur d'anticipation en équilibrant l'objectif ultime et la progression de la tâche. Les trajectoires imaginées qui en résultent fournissent des signaux riches sur les conséquences futures, tels que la progression réalisée et les conflits potentiels, qui sont fusionnés avec les observations actuelles, formulant un processus de décision markovien partiellement observable et imaginable pour guider l'apprentissage des politiques. Nous instancions ITP avec des variantes sans apprentissage et entraînées par renforcement. Des expériences approfondies sur des benchmarks représentatifs d'agents démontrent qu'ITP surpasse significativement les bases de comparaison compétitives. Des analyses supplémentaires valident le fait que notre anticipation adaptative améliore largement la capacité de raisonnement des agents, fournissant des insights précieux pour aborder des tâches complexes plus vastes.
English
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.
PDF91January 16, 2026