FocusAgent: Eenvoudige maar Effectieve Manieren om de Grote Context van Webagents te Verkleinen
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
Auteurs: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
Samenvatting
Webagents aangedreven door grote taalmodellen (LLMs) moeten uitgebreide webpagina-observaties verwerken om gebruikersdoelen te voltooien; deze pagina's overschrijden vaak tienduizenden tokens. Dit overschrijdt de contextlimieten en verhoogt de rekenkosten; bovendien stelt het verwerken van volledige pagina's agents bloot aan beveiligingsrisico's zoals promptinjectie. Bestaande snoeistrategieën verwijderen ofwel relevante inhoud of behouden irrelevante context, wat leidt tot suboptimale actievoorspellingen. Wij introduceren FocusAgent, een eenvoudige maar effectieve aanpak die gebruikmaakt van een lichtgewicht LLM-retriever om de meest relevante regels uit toegankelijkheidsboom (AxTree)-observaties te extraheren, geleid door taakdoelen. Door lawaaierige en irrelevante inhoud te snoeien, stelt FocusAgent efficiënt redeneren mogelijk terwijl de kwetsbaarheid voor injectieaanvallen wordt verminderd. Experimenten op de WorkArena- en WebArena-benchmarks laten zien dat FocusAgent de prestaties van sterke basislijnen evenaart, terwijl de observatiegrootte met meer dan 50% wordt verminderd. Bovendien vermindert een variant van FocusAgent het slagingspercentage van prompt-injectieaanvallen aanzienlijk, inclusief banner- en pop-upaanvallen, terwijl de taakuitvoeringsprestaties in aanvalsvrije omgevingen behouden blijven. Onze resultaten benadrukken dat gerichte LLM-gebaseerde retrieval een praktische en robuuste strategie is voor het bouwen van webagents die efficiënt, effectief en veilig zijn.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.