Planejamento Antecipatório para Agentes de IA Multimodais

Resumo

Avanços recentes em agentes multimodais melhoraram a interação com computadores e o uso de ferramentas, porém a maioria dos sistemas existentes permanece reativa, otimizando ações de forma isolada sem raciocinar sobre estados futuros ou objetivos de longo prazo. Isso limita a coerência do planejamento e impede que os agentes resolvam de forma confiável tarefas complexas e multi-etapas. Apresentamos o TraceR1, uma estrutura de aprendizagem por reforço em dois estágios que treina explicitamente o raciocínio antecipatório através da previsão de trajetórias de curto prazo antes da execução. O primeiro estágio realiza aprendizagem por reforço a nível de trajetória com recompensas que impõem consistência global entre sequências de ações previstas. O segundo estágio aplica ajuste fino por reforço fundamentado, utilizando feedback de execução de agentes de ferramentas congelados para refinar a precisão e executabilidade a nível de etapa. O TraceR1 é avaliado em sete benchmarks, abrangendo uso de computador online, benchmarks de uso offline de computador e tarefas de raciocínio com uso multimodal de ferramentas, onde alcança melhorias substanciais em estabilidade de planejamento, robustez de execução e generalização sobre abordagens reativas e de estágio único. Estes resultados demonstram que o raciocínio antecipatório de trajetórias é um princípio fundamental para construir agentes multimodais que podem raciocinar, planejar e agir eficazmente em ambientes complexos do mundo real.

English

Recent advances in multimodal agents have improved computer-use interaction and tool-usage, yet most existing systems remain reactive, optimizing actions in isolation without reasoning about future states or long-term goals. This limits planning coherence and prevents agents from reliably solving high-level, multi-step tasks. We introduce TraceR1, a two-stage reinforcement learning framework that explicitly trains anticipatory reasoning by forecasting short-horizon trajectories before execution. The first stage performs trajectory-level reinforcement learning with rewards that enforce global consistency across predicted action sequences. The second stage applies grounded reinforcement fine-tuning, using execution feedback from frozen tool agents to refine step-level accuracy and executability. TraceR1 is evaluated across seven benchmarks, covering online computer-use, offline computer-use benchmarks, and multimodal tool-use reasoning tasks, where it achieves substantial improvements in planning stability, execution robustness, and generalization over reactive and single-stage baselines. These results show that anticipatory trajectory reasoning is a key principle for building multimodal agents that can reason, plan, and act effectively in complex real-world environments.

Planejamento Antecipatório para Agentes de IA Multimodais

Anticipatory Planning for Multimodal AI Agents

Resumo

Support