ChatPaper.aiChatPaper

Un Cadre Orienté par les Sous-Buts pour l'Amélioration des Agents LLM à Long Horizon

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

March 20, 2026
Auteurs: Taiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
cs.AI

Résumé

Les agents basés sur de grands modèles de langage (LLM) sont apparus comme des contrôleurs autonomes puissants pour les environnements numériques, y compris les interfaces mobiles, les systèmes d'exploitation et les navigateurs web. La navigation web, par exemple, nécessite de gérer un contenu dynamique et de longues séquences d'actions, ce qui la rend particulièrement difficile. Les agents existants basés sur des LLM peinent dans la planification à long terme de deux manières principales. Durant l'exécution en ligne, ils perdent souvent le fil à mesure que de nouvelles informations arrivent, manquant d'une trajectoire claire et adaptable vers l'objectif final. Ce problème est encore exacerbé lors du fine-tuning par apprentissage par renforcement (RL), où des récompenses rares et retardées rendent difficile pour les agents d'identifier les actions menant au succès, les empêchant de maintenir un raisonnement cohérent sur des tâches prolongées. Pour relever ces défis, nous proposons deux contributions. Premièrement, nous introduisons un cadre d'agent qui exploite des modèles propriétaires pour la planification en ligne via la décomposition en sous-buts. Deuxièmement, nous présentons MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un cadre d'entraînement par RL qui utilise des signaux de récompense denses basés sur des jalons. Le mécanisme de planification en temps réel améliore les modèles propriétaires tels que Gemini d'environ 10% d'augmentation absolue du taux de réussite (SR) sur le benchmark WebArena-Lite. Parallèlement, l'application de MiRA au modèle ouvert Gemma3-12B fait passer son taux de réussite de 6,4% à 43,0%. Cette performance surpasse les systèmes propriétaires tels que GPT-4-Turbo (17,6%) et GPT-4o (13,9%), ainsi que l'état de l'art précédent pour les modèles ouverts, WebRL (38,4%). Globalement, nos résultats démontrent que combiner une planification explicite au moment de l'inférence avec des récompenses basées sur des jalons améliore significativement les capacités des agents sur un horizon long, ouvrant la voie à des systèmes autonomes plus robustes et généralistes.
English
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.
PDF132March 24, 2026