FocusAgent: Métodos simples pero efectivos para reducir el contexto extenso de los agentes web

Resumen

Los agentes web impulsados por modelos de lenguaje de gran escala (LLMs) deben procesar observaciones extensas de páginas web para cumplir con los objetivos del usuario; estas páginas a menudo superan decenas de miles de tokens. Esto satura los límites de contexto y aumenta los costos computacionales de procesamiento; además, procesar páginas completas expone a los agentes a riesgos de seguridad, como la inyección de prompts. Las estrategias de poda existentes descartan contenido relevante o retienen contexto irrelevante, lo que lleva a una predicción de acciones subóptima. Presentamos FocusAgent, un enfoque simple pero efectivo que aprovecha un recuperador LLM ligero para extraer las líneas más relevantes de las observaciones del árbol de accesibilidad (AxTree), guiado por los objetivos de la tarea. Al podar contenido ruidoso e irrelevante, FocusAgent permite un razonamiento eficiente mientras reduce la vulnerabilidad a ataques de inyección. Los experimentos en los benchmarks WorkArena y WebArena muestran que FocusAgent iguala el rendimiento de líneas de base sólidas, mientras reduce el tamaño de la observación en más del 50%. Además, una variante de FocusAgent reduce significativamente la tasa de éxito de los ataques de inyección de prompts, incluidos los ataques de banners y ventanas emergentes, manteniendo el rendimiento en tareas en entornos libres de ataques. Nuestros resultados destacan que la recuperación dirigida basada en LLM es una estrategia práctica y robusta para construir agentes web que sean eficientes, efectivos y seguros.

English

Web agents powered by large language models (LLMs) must process lengthy web page observations to complete user goals; these pages often exceed tens of thousands of tokens. This saturates context limits and increases computational cost processing; moreover, processing full pages exposes agents to security risks such as prompt injection. Existing pruning strategies either discard relevant content or retain irrelevant context, leading to suboptimal action prediction. We introduce FocusAgent, a simple yet effective approach that leverages a lightweight LLM retriever to extract the most relevant lines from accessibility tree (AxTree) observations, guided by task goals. By pruning noisy and irrelevant content, FocusAgent enables efficient reasoning while reducing vulnerability to injection attacks. Experiments on WorkArena and WebArena benchmarks show that FocusAgent matches the performance of strong baselines, while reducing observation size by over 50%. Furthermore, a variant of FocusAgent significantly reduces the success rate of prompt-injection attacks, including banner and pop-up attacks, while maintaining task success performance in attack-free settings. Our results highlight that targeted LLM-based retrieval is a practical and robust strategy for building web agents that are efficient, effective, and secure.

FocusAgent: Métodos simples pero efectivos para reducir el contexto extenso de los agentes web

FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

Resumen

Support