ChatPaper.aiChatPaper

Un Marco Basado en Subobjetivos para Mejorar los Agentes de LLM de Horizonte Largo

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

March 20, 2026
Autores: Taiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
cs.AI

Resumen

Los agentes basados en modelos de lenguaje grande (LLM) han surgido como controladores autónomos potentes para entornos digitales, incluyendo interfaces móviles, sistemas operativos y navegadores web. La navegación web, por ejemplo, requiere manejar contenido dinámico y largas secuencias de acciones, lo que la hace particularmente desafiante. Los agentes existentes basados en LLM tienen dificultades con la planificación de largo horizonte principalmente de dos maneras. Durante la ejecución en línea, a menudo pierden el rastro a medida que llega nueva información, careciendo de una ruta clara y adaptable hacia el objetivo final. Este problema se ve exacerbado durante el ajuste fino por aprendizaje por refuerzo (RL), donde las recompensas escasas y retardadas dificultan que los agentes identifiquen qué acciones conducen al éxito, impidiéndoles mantener un razonamiento coherente en tareas extensas. Para abordar estos desafíos, proponemos dos contribuciones. Primero, introducimos un marco de agente que aprovecha modelos propietarios para la planificación en línea mediante la descomposición en submetas. Segundo, presentamos MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un marco de entrenamiento RL que utiliza señales de recompensa densas basadas en hitos. El mecanismo de planificación en tiempo real mejora modelos propietarios como Gemini en aproximadamente un 10% de aumento absoluto en la tasa de éxito (SR) en el benchmark WebArena-Lite. Mientras tanto, aplicar MiRA al modelo abierto Gemma3-12B aumenta su tasa de éxito del 6.4% al 43.0%. Este rendimiento supera a sistemas propietarios como GPT-4-Turbo (17.6%) y GPT-4o (13.9%), así como al anterior estado del arte en modelos abiertos, WebRL (38.4%). En general, nuestros hallazgos demuestran que combinar una planificación explícita en tiempo de inferencia con recompensas basadas en hitos mejora significativamente las capacidades de largo horizonte de un agente, allanando el camino para sistemas autónomos más robustos y de propósito general.
English
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.
PDF132March 24, 2026