FocusAgent: Maneiras Simples, mas Eficazes de Reduzir o Contexto Amplo de Agentes Web

Resumo

Agentes web alimentados por grandes modelos de linguagem (LLMs) precisam processar observações extensas de páginas da web para cumprir os objetivos dos usuários; essas páginas frequentemente excedem dezenas de milhares de tokens. Isso satura os limites de contexto e aumenta o custo computacional do processamento; além disso, processar páginas completas expõe os agentes a riscos de segurança, como injeção de prompt. As estratégias de poda existentes ou descartam conteúdo relevante ou retêm contexto irrelevante, levando a previsões de ação subótimas. Apresentamos o FocusAgent, uma abordagem simples, porém eficaz, que utiliza um retriever leve baseado em LLM para extrair as linhas mais relevantes de observações da árvore de acessibilidade (AxTree), orientadas pelos objetivos da tarefa. Ao podar conteúdo ruidoso e irrelevante, o FocusAgent permite raciocínio eficiente enquanto reduz a vulnerabilidade a ataques de injeção. Experimentos nos benchmarks WorkArena e WebArena mostram que o FocusAgent iguala o desempenho de baselines fortes, enquanto reduz o tamanho da observação em mais de 50%. Além disso, uma variante do FocusAgent reduz significativamente a taxa de sucesso de ataques de injeção de prompt, incluindo ataques de banners e pop-ups, mantendo o desempenho de sucesso da tarefa em cenários livres de ataques. Nossos resultados destacam que a recuperação direcionada baseada em LLM é uma estratégia prática e robusta para construir agentes web que são eficientes, eficazes e seguros.

English

Web agents powered by large language models (LLMs) must process lengthy web page observations to complete user goals; these pages often exceed tens of thousands of tokens. This saturates context limits and increases computational cost processing; moreover, processing full pages exposes agents to security risks such as prompt injection. Existing pruning strategies either discard relevant content or retain irrelevant context, leading to suboptimal action prediction. We introduce FocusAgent, a simple yet effective approach that leverages a lightweight LLM retriever to extract the most relevant lines from accessibility tree (AxTree) observations, guided by task goals. By pruning noisy and irrelevant content, FocusAgent enables efficient reasoning while reducing vulnerability to injection attacks. Experiments on WorkArena and WebArena benchmarks show that FocusAgent matches the performance of strong baselines, while reducing observation size by over 50%. Furthermore, a variant of FocusAgent significantly reduces the success rate of prompt-injection attacks, including banner and pop-up attacks, while maintaining task success performance in attack-free settings. Our results highlight that targeted LLM-based retrieval is a practical and robust strategy for building web agents that are efficient, effective, and secure.

FocusAgent: Maneiras Simples, mas Eficazes de Reduzir o Contexto Amplo de Agentes Web

FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

Resumo

Support