Заблаговременное планирование для мультимодальных ИИ-агентов

Аннотация

Последние достижения в области мультимодальных агентов улучшили взаимодействие с компьютером и использование инструментов, однако большинство существующих систем остаются реактивными, оптимизируя действия изолированно без рассуждений о будущих состояниях или долгосрочных целях. Это ограничивает согласованность планирования и не позволяет агентам надежно решать сложные многоэтапные задачи. Мы представляем TraceR1 — двухэтапную архитектуру обучения с подкреплением, которая явно тренирует упреждающие рассуждения за счет прогнозирования краткосрочных траекторий до выполнения действий. На первом этапе проводится обучение с подкреплением на уровне траекторий с использованием вознаграждений, обеспечивающих глобальную согласованность предсказанных последовательностей действий. На втором этапе применяется предметно-ориентированная тонкая настройка методом подкрепления, где обратная связь от выполнения замороженными инструментальными агентами используется для повышения пошаговой точности и исполнимости. TraceR1 оценивается на семи тестовых наборах, охватывающих онлайн- и офлайн-взаимодействие с компьютером, а также мультимодальные задачи на рассуждение с использованием инструментов, демонстрируя существенное улучшение стабильности планирования, устойчивости выполнения и обобщающей способности по сравнению с реактивными и одноэтапными аналогами. Эти результаты показывают, что упреждающий анализ траекторий является ключевым принципом для создания мультимодальных агентов, способных эффективно рассуждать, планировать и действовать в сложных реальных условиях.

English

Recent advances in multimodal agents have improved computer-use interaction and tool-usage, yet most existing systems remain reactive, optimizing actions in isolation without reasoning about future states or long-term goals. This limits planning coherence and prevents agents from reliably solving high-level, multi-step tasks. We introduce TraceR1, a two-stage reinforcement learning framework that explicitly trains anticipatory reasoning by forecasting short-horizon trajectories before execution. The first stage performs trajectory-level reinforcement learning with rewards that enforce global consistency across predicted action sequences. The second stage applies grounded reinforcement fine-tuning, using execution feedback from frozen tool agents to refine step-level accuracy and executability. TraceR1 is evaluated across seven benchmarks, covering online computer-use, offline computer-use benchmarks, and multimodal tool-use reasoning tasks, where it achieves substantial improvements in planning stability, execution robustness, and generalization over reactive and single-stage baselines. These results show that anticipatory trajectory reasoning is a key principle for building multimodal agents that can reason, plan, and act effectively in complex real-world environments.

Заблаговременное планирование для мультимодальных ИИ-агентов

Anticipatory Planning for Multimodal AI Agents

Аннотация

Support