Immagina-poi-Pianifica: Apprendimento dell'Agente attraverso Anticipazione Adattiva con Modelli del Mondo

Abstract

I recenti progressi nei modelli mondiali hanno mostrato potenzialità nella modellazione delle dinamiche future degli stati ambientali, consentendo agli agenti di ragionare e agire senza accedere ad ambienti reali. I metodi attuali eseguono principalmente rollout a passo singolo o con orizzonte fisso, lasciando il loro potenziale per la pianificazione di compiti complessi sottoutilizzato. Proponiamo Imagine-then-Plan (ITP), un framework unificato per l'apprendimento degli agenti tramite immaginazione prospettica, in cui il modello della policy di un agente interagisce con il modello mondiale appreso, generando traiettorie "immaginate" multi-step. Poiché l'orizzonte temporale dell'immaginazione può variare in base ai compiti e alle fasi, introduciamo un innovativo meccanismo adattivo di prospettiva bilanciando l'obiettivo finale e il progresso del compito. Le traiettorie immaginate risultanti forniscono segnali ricchi sulle conseguenze future, come il progresso ottenuto e i potenziali conflitti, che vengono fusi con le osservazioni correnti, formulando un processo decisionale di Markov parzialmente osservabile e immaginabile per guidare l'apprendimento della policy. Istanziamo ITP con varianti sia senza addestramento che addestrate con rinforzo. Esperimenti estesi su benchmark rappresentativi per agenti dimostrano che ITP supera significativamente i baseline competitivi. Ulteriori analisi convalidano che la nostra prospettiva adattiva migliora notevolmente la capacità di ragionamento degli agenti, fornendo spunti preziosi per affrontare compiti complessi più ampi.

English

Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.

Immagina-poi-Pianifica: Apprendimento dell'Agente attraverso Anticipazione Adattiva con Modelli del Mondo

Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

Abstract

Support