Фреймворк на основе подцелей для повышения эффективности LLM-агентов при решении задач с длинным горизонтом планирования

Аннотация

Агенты на основе больших языковых моделей (LLM) стали мощными автономными контроллерами для цифровых сред, включая мобильные интерфейсы, операционные системы и веб-браузеры. Веб-навигация, например, требует обработки динамического контента и длинных последовательностей действий, что делает ее особенно сложной задачей. Существующие LLM-агенты сталкиваются с проблемами в долгосрочном планировании двумя основными способами. Во время онлайн-выполнения они часто теряют ориентацию по мере поступления новой информации, не имея четкого и адаптивного пути к конечной цели. Эта проблема усугубляется в процессе тонкой настройки с подкрепляющим обучением (RL), где разреженные и отсроченные вознаграждения затрудняют для агентов идентификацию действий, ведущих к успеху, что мешает им поддерживать последовательные рассуждения в ходе продолжительных задач. Для решения этих проблем мы предлагаем два подхода. Во-первых, мы представляем архитектуру агента, которая использует проприетарные модели для онлайн-планирования через декомпозицию подцелей. Во-вторых, мы представляем MiRA (Milestoning your Reinforcement Learning Enhanced Agent) — фреймворк для RL-обучения, использующий плотные reward-сигналы на основе вех. Механизм планирования в реальном времени улучшает проприетарные модели, такие как Gemini, примерно на 10% в абсолютном выражении по показателю успешности (SR) в бенчмарке WebArena-Lite. В то же время применение MiRA к открытой модели Gemma3-12B повышает ее успешность с 6,4% до 43,0%. Этот результат превосходит показатели проприетарных систем, таких как GPT-4-Turbo (17,6%) и GPT-4o (13,9%), а также предыдущего передового открытого решения WebRL (38,4%). В целом, наши результаты демонстрируют, что сочетание явного планирования на этапе логического вывода с вознаграждениями на основе вех значительно улучшает способности агента к долгосрочному планированию, прокладывая путь к созданию более надежных и универсальных автономных систем.

English

Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.

Фреймворк на основе подцелей для повышения эффективности LLM-агентов при решении задач с длинным горизонтом планирования

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Аннотация

Support