FocusAgent: Простые, но эффективные способы сокращения большого контекста веб-агентов
FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents
October 3, 2025
Авторы: Imene Kerboua, Sahar Omidi Shayegan, Megh Thakkar, Xing Han Lù, Léo Boisvert, Massimo Caccia, Jérémy Espinas, Alexandre Aussem, Véronique Eglin, Alexandre Lacoste
cs.AI
Аннотация
Веб-агенты, основанные на больших языковых моделях (LLM), должны обрабатывать длинные наблюдения веб-страниц для выполнения пользовательских задач; эти страницы часто превышают десятки тысяч токенов. Это приводит к насыщению ограничений контекста и увеличению вычислительных затрат; более того, обработка полных страниц подвергает агентов рискам безопасности, таким как инъекция промптов. Существующие стратегии обрезки либо отбрасывают релевантный контент, либо сохраняют нерелевантный контекст, что приводит к неоптимальному предсказанию действий. Мы представляем FocusAgent — простой, но эффективный подход, который использует легковесный LLM-ретривер для извлечения наиболее релевантных строк из наблюдений дерева доступности (AxTree), руководствуясь целями задачи. Удаляя шумный и нерелевантный контент, FocusAgent обеспечивает эффективное рассуждение, одновременно снижая уязвимость к атакам инъекции. Эксперименты на бенчмарках WorkArena и WebArena показывают, что FocusAgent соответствует производительности сильных базовых моделей, при этом сокращая размер наблюдений более чем на 50%. Кроме того, вариант FocusAgent значительно снижает успешность атак инъекции промптов, включая баннерные и всплывающие атаки, сохраняя при этом производительность в условиях отсутствия атак. Наши результаты подчеркивают, что целевой LLM-ретриверинг является практичной и надежной стратегией для создания веб-агентов, которые эффективны, производительны и безопасны.
English
Web agents powered by large language models (LLMs) must process lengthy web
page observations to complete user goals; these pages often exceed tens of
thousands of tokens. This saturates context limits and increases computational
cost processing; moreover, processing full pages exposes agents to security
risks such as prompt injection. Existing pruning strategies either discard
relevant content or retain irrelevant context, leading to suboptimal action
prediction. We introduce FocusAgent, a simple yet effective approach that
leverages a lightweight LLM retriever to extract the most relevant lines from
accessibility tree (AxTree) observations, guided by task goals. By pruning
noisy and irrelevant content, FocusAgent enables efficient reasoning while
reducing vulnerability to injection attacks. Experiments on WorkArena and
WebArena benchmarks show that FocusAgent matches the performance of strong
baselines, while reducing observation size by over 50%. Furthermore, a variant
of FocusAgent significantly reduces the success rate of prompt-injection
attacks, including banner and pop-up attacks, while maintaining task success
performance in attack-free settings. Our results highlight that targeted
LLM-based retrieval is a practical and robust strategy for building web agents
that are efficient, effective, and secure.