ChatPaper.aiChatPaper

Vorstellen-dann-Planen: Agentenlernen durch adaptives Vorausschauen mit Weltmodellen

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

January 13, 2026
papers.authors: Youwei Liu, Jian Wang, Hanlin Wang, Beichen Guo, Wenjie Li
cs.AI

papers.abstract

Jüngste Fortschritte bei Weltmodellen zeigen vielversprechende Ansätze zur Modellierung zukünftiger Dynamiken von Umweltzuständen, was Agenten ermöglicht, zu schlussfolgern und zu handeln, ohne auf reale Umgebungen zugreifen zu müssen. Aktuelle Methoden führen überwiegend Einzelschritt- oder Festhorizont-Simulationen durch, wodurch ihr Potenzial für komplexe Aufgabenplanung unzureichend genutzt wird. Wir stellen Imagine-then-Plan (ITP) vor, einen einheitlichen Rahmen für Agentenlernen durch Vorausschau-Imagination, bei dem das Policy-Modell eines Agenten mit dem gelernten Weltmodell interagiert und mehrstufige „imaginierte“ Trajektorien erzeugt. Da der Imaginationhorizont je nach Aufgabe und Phase variieren kann, führen wir einen neuartigen adaptiven Vorausschau-Mechanismus ein, der Endziel und Aufgabenfortschritt abwägt. Die resultierenden imaginierten Trajektorien liefern umfassende Signale über zukünftige Konsequenzen, wie erzielte Fortschritte und potenzielle Konflikte, die mit aktuellen Beobachtungen fusioniert werden. Dies formuliert ein teilweise beobachtbares und imaginierbares Markov-Entscheidungsproblem zur Steuerung des Policy-Lernens. Wir implementieren ITP in sowohl trainingsfreien als auch verstärkungslernbasierten Varianten. Umfangreiche Experimente über repräsentative Agenten-Benchmarks zeigen, dass ITP wettbewerbsfähige Baseline-Methoden signifikant übertrifft. Weitere Analysen bestätigen, dass unsere adaptive Vorausschau das Schlussfolgerungsvermögen von Agenten wesentlich verbessert und wertvolle Einblicke zur Bewältigung breiterer, komplexer Aufgaben bietet.
English
Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.
PDF91January 16, 2026