Pianificazione Anticipatoria per Agenti IA Multimodali

Abstract

I recenti progressi negli agenti multimodali hanno migliorato l'interazione con i computer e l'utilizzo di strumenti, tuttavia la maggior parte dei sistemi esistenti rimane reattiva, ottimizzando le azioni in isolamento senza ragionare sugli stati futuri o sugli obiettivi a lungo termine. Ciò limita la coerenza della pianificazione e impedisce agli agenti di risolvere in modo affidabile compiti complessi e multi-step di alto livello. Introduciamo TraceR1, un framework di apprendimento per rinforzo a due stadi che allena esplicitamente il ragionamento anticipatorio prevendo traiettorie a breve orizzonte prima dell'esecuzione. Il primo stadio esegue un apprendimento per rinforzo a livello di traiettoria con ricompense che impongono una coerenza globale attraverso le sequenze di azioni predette. Il secondo stadio applica un fine-tuning di rinforzo fondato, utilizzando il feedback di esecuzione da agenti strumento congelati per affinare l'accuratezza e l'eseguibilità a livello di step. TraceR1 viene valutato su sette benchmark, coprendo l'uso del computer online, benchmark di uso del computer offline e compiti di ragionamento con strumenti multimodali, dove ottiene miglioramenti sostanziali nella stabilità della pianificazione, nella robustezza esecutiva e nella generalizzazione rispetto ai baseline reattivi e a stadio singolo. Questi risultati dimostrano che il ragionamento anticipatorio sulle traiettorie è un principio chiave per costruire agenti multimodali in grado di ragionare, pianificare e agire efficacemente in ambienti complessi del mondo reale.

English

Recent advances in multimodal agents have improved computer-use interaction and tool-usage, yet most existing systems remain reactive, optimizing actions in isolation without reasoning about future states or long-term goals. This limits planning coherence and prevents agents from reliably solving high-level, multi-step tasks. We introduce TraceR1, a two-stage reinforcement learning framework that explicitly trains anticipatory reasoning by forecasting short-horizon trajectories before execution. The first stage performs trajectory-level reinforcement learning with rewards that enforce global consistency across predicted action sequences. The second stage applies grounded reinforcement fine-tuning, using execution feedback from frozen tool agents to refine step-level accuracy and executability. TraceR1 is evaluated across seven benchmarks, covering online computer-use, offline computer-use benchmarks, and multimodal tool-use reasoning tasks, where it achieves substantial improvements in planning stability, execution robustness, and generalization over reactive and single-stage baselines. These results show that anticipatory trajectory reasoning is a key principle for building multimodal agents that can reason, plan, and act effectively in complex real-world environments.

Pianificazione Anticipatoria per Agenti IA Multimodali

Anticipatory Planning for Multimodal AI Agents

Abstract

Support