FocusAgent: Metodi Semplici ma Efficaci per Ridurre il Contesto Esteso degli Agenti Web
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
Autori: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
Abstract
Gli agenti web alimentati da grandi modelli linguistici (LLM) devono elaborare osservazioni di pagine web estese per completare gli obiettivi dell'utente; queste pagine spesso superano decine di migliaia di token. Ciò satura i limiti del contesto e aumenta i costi computazionali di elaborazione; inoltre, elaborare pagine complete espone gli agenti a rischi di sicurezza come l'iniezione di prompt. Le strategie di potatura esistenti scartano contenuti rilevanti o conservano contesti irrilevanti, portando a previsioni di azione subottimali. Introduciamo FocusAgent, un approccio semplice ma efficace che sfrutta un retriever LLM leggero per estrarre le righe più pertinenti dalle osservazioni dell'albero di accessibilità (AxTree), guidato dagli obiettivi del compito. Potando contenuti rumorosi e irrilevanti, FocusAgent consente un ragionamento efficiente riducendo la vulnerabilità agli attacchi di iniezione. Esperimenti sui benchmark WorkArena e WebArena dimostrano che FocusAgent eguaglia le prestazioni di baseline robusti, riducendo le dimensioni delle osservazioni di oltre il 50%. Inoltre, una variante di FocusAgent riduce significativamente il tasso di successo degli attacchi di iniezione di prompt, inclusi attacchi banner e pop-up, mantenendo le prestazioni di successo del compito in ambienti privi di attacchi. I nostri risultati evidenziano che il recupero mirato basato su LLM è una strategia pratica e robusta per costruire agenti web efficienti, efficaci e sicuri.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.