Een subdoelgestuurd raamwerk voor het verbeteren van LLM-agents met lange tijdshorizon

Samenvatting

Op grote taalmodel (LLM) gebaseerde agents zijn opgekomen als krachtige autonome controllers voor digitale omgevingen, waaronder mobiele interfaces, besturingssystemen en webbrowsers. Webbrowsing vereist bijvoorbeeld het verwerken van dynamische inhoud en lange actievolgordes, wat het bijzonder uitdagend maakt. Bestaande LLM-gebaseerde agents worstelen met planning op lange termijn op twee belangrijke manieren. Tijdens online uitvoering raken ze vaak het spoor bijster wanneer nieuwe informatie binnenkomt, omdat ze een duidelijke en adaptieve route naar het uiteindelijke doel missen. Dit probleem wordt verder verergerd tijdens reinforcement learning (RL)-fine-tuning, waar schaarse en vertraagde beloningen het moeilijk maken voor agents om te identificeren welke acties tot succes leiden, waardoor ze geen coherente redenering kunnen behouden bij langdurige taken. Om deze uitdagingen aan te pakken, doen we twee voorstellen. Ten eerste introduceren we een agentframework dat gebruikmaakt van propriëtaire modellen voor online planning via subdoeldecompositie. Ten tweede presenteren we MiRA (Milestoning your Reinforcement Learning Enhanced Agent), een RL-trainingsframework dat gebruikmaakt van dense, op mijlpalen gebaseerde beloningssignalen. Het realtime planningsmechanisme verbetert propriëtaire modellen zoals Gemini met een absolute stijging van ongeveer 10% in succespercentage (SR) op de WebArena-Lite-benchmark. Ondertussen verhoogt het toepassen van MiRA op het open Gemma3-12B-model het succespercentage van 6,4% naar 43,0%. Deze prestatie overtreft propriëtaire systemen zoals GPT-4-Turbo (17,6%) en GPT-4o (13,9%), evenals het vorige state-of-the-art open model, WebRL (38,4%). Over het geheel genomen tonen onze bevindingen aan dat het combineren van expliciete planning tijdens inferentie met op mijlpalen gebaseerde beloningen de langetermijncapaciteiten van een agent aanzienlijk verbetert, waardoor de weg wordt geëffend voor robuustere en algemenere autonome systemen.

English

Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.

Een subdoelgestuurd raamwerk voor het verbeteren van LLM-agents met lange tijdshorizon

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Samenvatting

Support