ChatPaper.aiChatPaper

Ein Subziel-gesteuerter Rahmen zur Verbesserung von KI-Agenten mit langem Planungshorizont

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

March 20, 2026
Autoren: Taiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
cs.AI

Zusammenfassung

Auf großen Sprachmodellen (LLM) basierende Agenten haben sich als leistungsstarke autonome Steuerungssysteme für digitale Umgebungen etabliert, einschließlich mobiler Oberflächen, Betriebssysteme und Webbrowser. Die Webbrowser-Navigation erfordert beispielsweise den Umgang mit dynamischen Inhalten und langen Aktionssequenzen, was sie besonders anspruchsvoll macht. Bestehende LLM-basierte Agenten haben vor allem in zwei Bereichen Schwierigkeiten mit der langfristigen Planung. Während der Online-Ausführung verlieren sie häufig den Überblick, wenn neue Informationen eintreffen, da ihnen ein klarer und adaptiver Pfad zum Endziel fehlt. Dieses Problem wird während des Reinforcement-Learning(RL)-Feintunings weiter verstärkt, wo spärliche und verzögerte Belohnungen es den Agenten erschweren, zu identifizieren, welche Aktionen zum Erfolg führen, was eine kohärente Entscheidungsfindung bei umfangreichen Aufgaben verhindert. Um diese Herausforderungen zu bewältigen, schlagen wir zwei Beiträge vor. Erstens führen wir ein Agenten-Framework ein, das proprietäre Modelle für die Online-Planung durch Teilziel-Zerlegung nutzt. Zweitens präsentieren wir MiRA (Milestoning your Reinforcement Learning Enhanced Agent), ein RL-Trainingsframework, das dichte, meilensteinbasierte Belohnungssignale verwendet. Der Echtzeit-Planungsmechanismus verbessert proprietäre Modelle wie Gemini um einen absoluten Anstieg der Erfolgsquote (SR) von etwa 10 % auf dem WebArena-Lite-Benchmark. Die Anwendung von MiRA auf das offene Gemma3-12B-Modell steigert dessen Erfolgsquote unterdessen von 6,4 % auf 43,0 %. Diese Leistung übertrifft proprietäre Systeme wie GPT-4-Turbo (17,6 %) und GPT-4o (13,9 %) sowie den bisherigen State-of-the-Art unter den offenen Modellen, WebRL (38,4 %). Insgesamt zeigen unsere Ergebnisse, dass die Kombination von expliziter Planung zur Inferenzzeit mit meilensteinbasierten Belohnungen die Fähigkeiten eines Agenten für langfristige Planung erheblich verbessert und den Weg für robustere und universellere autonome Systeme ebnet.
English
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.
PDF132March 24, 2026