ChatPaper.aiChatPaper

Un Framework Guidato da Sottobiettivi per Migliorare gli Agenti LLM a Lungo Orizzonte

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

March 20, 2026
Autori: Taiyi Wang, Sian Gooding, Florian Hartmann, Oriana Riva, Edward Grefenstette
cs.AI

Abstract

Gli agenti basati su grandi modelli linguistici (LLM) sono emersi come potenti controllori autonomi per ambienti digitali, incluse interfacce mobili, sistemi operativi e browser web. La navigazione web, ad esempio, richiede la gestione di contenuti dinamici e lunghe sequenze di azioni, rendendola particolarmente impegnativa. Gli agenti esistenti basati su LLM incontrano difficoltà nella pianificazione a lungo termine principalmente in due modi. Durante l'esecuzione online, perdono spesso la traiettoria con l'arrivo di nuove informazioni, mancando di un percorso chiaro e adattivo verso l'obiettivo finale. Questo problema è ulteriormente esacerbato durante la messa a punto tramite apprendimento per rinforzo (RL), dove ricompense sparse e ritardate rendono difficile per gli agenti identificare quali azioni portano al successo, impedendo loro di mantenere un ragionamento coerente su compiti estesi. Per affrontare queste sfide, proponiamo due contributi. In primo luogo, introduciamo un framework per agenti che sfrutta modelli proprietari per la pianificazione online attraverso la scomposizione in sottobiettivi. In secondo luogo, presentiamo MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un framework di addestramento RL che utilizza segnali di ricompensa densi e basati su milestone. Il meccanismo di pianificazione in tempo reale migliora modelli proprietari come Gemini di circa un aumento assoluto del 10% nel tasso di successo (SR) sul benchmark WebArena-Lite. Nel frattempo, applicare MiRA al modello open Gemma3-12B aumenta il suo tasso di successo dal 6,4% al 43,0%. Questa prestazione supera sistemi proprietari come GPT-4-Turbo (17,6%) e GPT-4o (13,9%), nonché il precedente stato dell'arte per modelli open, WebRL (38,4%). Nel complesso, i nostri risultati dimostrano che combinare una pianificazione esplicita al momento dell'inferenza con ricompense basate su milestone migliora significativamente le capacità a lungo termine di un agente, spianando la strada a sistemi autonomi più robusti e generici.
English
Large language model (LLM)-based agents have emerged as powerful autonomous controllers for digital environments, including mobile interfaces, operating systems, and web browsers. Web navigation, for example, requires handling dynamic content and long sequences of actions, making it particularly challenging. Existing LLM-based agents struggle with long-horizon planning in two main ways. During online execution, they often lose track as new information arrives, lacking a clear and adaptive path toward the final goal. This issue is further exacerbated during reinforcement learning (RL) fine-tuning, where sparse and delayed rewards make it difficult for agents to identify which actions lead to success, preventing them from maintaining coherent reasoning over extended tasks. To address these challenges, we propose two contributions. First, we introduce an agent framework that leverages proprietary models for online planning through subgoal decomposition. Second, we present MiRA (Milestoning your Reinforcement Learning Enhanced Agent), an RL training framework that uses dense, milestone-based reward signals. The real-time planning mechanism improves proprietary models such as Gemini by approximately a 10% absolute increase in success rate (SR) on the WebArena-Lite benchmark. Meanwhile, applying MiRA to the open Gemma3-12B model increases its success rate from 6.4% to 43.0%. This performance surpasses proprietary systems such as GPT-4-Turbo (17.6%) and GPT-4o (13.9%), as well as the previous open-model state of the art, WebRL (38.4%). Overall, our findings demonstrate that combining explicit inference-time planning with milestone-based rewards significantly improves an agent's long-horizon capabilities, paving the way for more robust and general-purpose autonomous systems.
PDF152March 24, 2026