Imagine-then-Plan: Aprendizado de Agentes a partir de Antecipação Adaptativa com Modelos de Mundo

Resumo

Avanços recentes em modelos de mundo têm demonstrado potencial para modelar a dinâmica futura de estados ambientais, permitindo que agentes raciocinem e ajam sem acessar ambientes reais. Os métodos atuais realizam principalmente rollouts de etapa única ou de horizonte fixo, deixando seu potencial para planejamento de tarefas complexas subexplorado. Propomos o Imagine-then-Plan (ITP), uma estrutura unificada para aprendizado de agentes via imaginação de antecipação, onde o modelo de política de um agente interage com o modelo de mundo aprendido, gerando trajetórias "imaginadas" de múltiplas etapas. Como o horizonte de imaginação pode variar conforme tarefas e estágios, introduzimos um novo mecanismo adaptativo de antecipação que equilibra o objetivo final e o progresso da tarefa. As trajetórias imaginadas resultantes fornecem sinais ricos sobre consequências futuras, como progresso alcançado e conflitos potenciais, que são fundidos com observações atuais, formulando um processo de decisão de Markov parcialmente observável e imaginável para orientar o aprendizado da política. Instanciamos o ITP com variantes livres de treinamento e treinadas por reforço. Experimentos extensos em benchmarks representativos de agentes demonstram que o ITP supera significativamente as linhas de base competitivas. Análises adicionais validam que nossa antecipação adaptativa amplamente aumenta a capacidade de raciocínio dos agentes, fornecendo insights valiosos para abordar tarefas complexas mais amplas.

English

Recent advances in world models have shown promise for modeling future dynamics of environmental states, enabling agents to reason and act without accessing real environments. Current methods mainly perform single-step or fixed-horizon rollouts, leaving their potential for complex task planning under-exploited. We propose Imagine-then-Plan (ITP), a unified framework for agent learning via lookahead imagination, where an agent's policy model interacts with the learned world model, yielding multi-step ``imagined'' trajectories. Since the imagination horizon may vary by tasks and stages, we introduce a novel adaptive lookahead mechanism by trading off the ultimate goal and task progress. The resulting imagined trajectories provide rich signals about future consequences, such as achieved progress and potential conflicts, which are fused with current observations, formulating a partially observable and imaginable Markov decision process to guide policy learning. We instantiate ITP with both training-free and reinforcement-trained variants. Extensive experiments across representative agent benchmarks demonstrate that ITP significantly outperforms competitive baselines. Further analyses validate that our adaptive lookahead largely enhances agents' reasoning capability, providing valuable insights into addressing broader, complex tasks.