FocusAgent: Maneiras Simples, mas Eficazes de Reduzir o Contexto Amplo de Agentes Web
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
Autores: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
Resumo
Agentes web alimentados por grandes modelos de linguagem (LLMs) precisam processar observações extensas de páginas da web para cumprir os objetivos dos usuários; essas páginas frequentemente excedem dezenas de milhares de tokens. Isso satura os limites de contexto e aumenta o custo computacional do processamento; além disso, processar páginas completas expõe os agentes a riscos de segurança, como injeção de prompt. As estratégias de poda existentes ou descartam conteúdo relevante ou retêm contexto irrelevante, levando a previsões de ação subótimas. Apresentamos o FocusAgent, uma abordagem simples, porém eficaz, que utiliza um retriever leve baseado em LLM para extrair as linhas mais relevantes de observações da árvore de acessibilidade (AxTree), orientadas pelos objetivos da tarefa. Ao podar conteúdo ruidoso e irrelevante, o FocusAgent permite raciocínio eficiente enquanto reduz a vulnerabilidade a ataques de injeção. Experimentos nos benchmarks WorkArena e WebArena mostram que o FocusAgent iguala o desempenho de baselines fortes, enquanto reduz o tamanho da observação em mais de 50%. Além disso, uma variante do FocusAgent reduz significativamente a taxa de sucesso de ataques de injeção de prompt, incluindo ataques de banners e pop-ups, mantendo o desempenho de sucesso da tarefa em cenários livres de ataques. Nossos resultados destacam que a recuperação direcionada baseada em LLM é uma estratégia prática e robusta para construir agentes web que são eficientes, eficazes e seguros.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.