FocusAgent: Métodos simples pero efectivos para reducir el contexto extenso de los agentes web
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
Autores: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
Resumen
Los agentes web impulsados por modelos de lenguaje de gran escala (LLMs) deben procesar observaciones extensas de páginas web para cumplir con los objetivos del usuario; estas páginas a menudo superan decenas de miles de tokens. Esto satura los límites de contexto y aumenta los costos computacionales de procesamiento; además, procesar páginas completas expone a los agentes a riesgos de seguridad, como la inyección de prompts. Las estrategias de poda existentes descartan contenido relevante o retienen contexto irrelevante, lo que lleva a una predicción de acciones subóptima. Presentamos FocusAgent, un enfoque simple pero efectivo que aprovecha un recuperador LLM ligero para extraer las líneas más relevantes de las observaciones del árbol de accesibilidad (AxTree), guiado por los objetivos de la tarea. Al podar contenido ruidoso e irrelevante, FocusAgent permite un razonamiento eficiente mientras reduce la vulnerabilidad a ataques de inyección. Los experimentos en los benchmarks WorkArena y WebArena muestran que FocusAgent iguala el rendimiento de líneas de base sólidas, mientras reduce el tamaño de la observación en más del 50%. Además, una variante de FocusAgent reduce significativamente la tasa de éxito de los ataques de inyección de prompts, incluidos los ataques de banners y ventanas emergentes, manteniendo el rendimiento en tareas en entornos libres de ataques. Nuestros resultados destacan que la recuperación dirigida basada en LLM es una estrategia práctica y robusta para construir agentes web que sean eficientes, efectivos y seguros.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.