FocusAgent : Des méthodes simples mais efficaces pour réduire le contexte étendu des agents web
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
papers.authors: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
papers.abstract
Les agents web alimentés par des modèles de langage de grande taille (LLM) doivent traiter des observations de pages web souvent longues pour accomplir les objectifs des utilisateurs ; ces pages dépassent fréquemment plusieurs dizaines de milliers de tokens. Cela sature les limites de contexte et augmente les coûts de traitement computationnel ; de plus, le traitement de pages entières expose les agents à des risques de sécurité tels que l'injection de prompts. Les stratégies d'élagage existantes éliminent soit du contenu pertinent, soit conservent du contexte inutile, conduisant à des prédictions d'actions sous-optimales. Nous présentons FocusAgent, une approche simple mais efficace qui exploite un récupérateur LLM léger pour extraire les lignes les plus pertinentes des observations de l'arbre d'accessibilité (AxTree), guidé par les objectifs de la tâche. En élaguant le contenu bruyant et non pertinent, FocusAgent permet un raisonnement efficace tout en réduisant la vulnérabilité aux attaques par injection. Les expériences sur les benchmarks WorkArena et WebArena montrent que FocusAgent atteint les performances de références solides, tout en réduisant la taille des observations de plus de 50 %. De plus, une variante de FocusAgent réduit significativement le taux de réussite des attaques par injection de prompts, y compris les attaques par bannières et fenêtres pop-up, tout en maintenant les performances de réussite des tâches dans des environnements sans attaque. Nos résultats soulignent que la récupération ciblée basée sur les LLM est une stratégie pratique et robuste pour construire des agents web efficaces, performants et sécurisés.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.