FocusAgent: Einfache, aber effektive Methoden zur Reduzierung des großen Kontexts von Web-Agenten

papers.abstract

Web-Agenten, die von großen Sprachmodellen (LLMs) angetrieben werden, müssen umfangreiche Webseiten-Beobachtungen verarbeiten, um Benutzerziele zu erreichen; diese Seiten überschreiten oft Zehntausende von Tokens. Dies führt zur Sättigung der Kontextgrenzen und erhöht die Rechenkosten; darüber hinaus setzt die Verarbeitung vollständiger Seiten die Agenten Sicherheitsrisiken wie Prompt-Injection aus. Bestehende Beschneidungsstrategien verwerfen entweder relevante Inhalte oder behalten irrelevanten Kontext bei, was zu suboptimalen Aktionsvorhersagen führt. Wir stellen FocusAgent vor, einen einfachen, aber effektiven Ansatz, der einen leichtgewichtigen LLM-Retriever nutzt, um die relevantesten Zeilen aus Accessibility-Tree (AxTree)-Beobachtungen zu extrahieren, geleitet von den Aufgabenzielen. Durch das Beschneiden von Rauschen und irrelevanten Inhalten ermöglicht FocusAgent effizientes Schlussfolgern und reduziert gleichzeitig die Anfälligkeit für Injection-Angriffe. Experimente auf den Benchmarks WorkArena und WebArena zeigen, dass FocusAgent die Leistung starker Baselines erreicht, während die Beobachtungsgröße um über 50 % reduziert wird. Darüber hinaus verringert eine Variante von FocusAgent die Erfolgsrate von Prompt-Injection-Angriffen, einschließlich Banner- und Pop-up-Angriffen, signifikant, während die Aufgabenleistung in angriffsfreien Umgebungen erhalten bleibt. Unsere Ergebnisse verdeutlichen, dass zielgerichtete LLM-basierte Retrieval-Strategien eine praktische und robuste Methode sind, um effiziente, effektive und sichere Web-Agenten zu entwickeln.

English

Web agents powered by large language models (LLMs) must process lengthy web page observations to complete user goals; these pages often exceed tens of thousands of tokens. This saturates context limits and increases computational cost processing; moreover, processing full pages exposes agents to security risks such as prompt injection. Existing pruning strategies either discard relevant content or retain irrelevant context, leading to suboptimal action prediction. We introduce FocusAgent, a simple yet effective approach that leverages a lightweight LLM retriever to extract the most relevant lines from accessibility tree (AxTree) observations, guided by task goals. By pruning noisy and irrelevant content, FocusAgent enables efficient reasoning while reducing vulnerability to injection attacks. Experiments on WorkArena and WebArena benchmarks show that FocusAgent matches the performance of strong baselines, while reducing observation size by over 50%. Furthermore, a variant of FocusAgent significantly reduces the success rate of prompt-injection attacks, including banner and pop-up attacks, while maintaining task success performance in attack-free settings. Our results highlight that targeted LLM-based retrieval is a practical and robust strategy for building web agents that are efficient, effective, and secure.

FocusAgent: Einfache, aber effektive Methoden zur Reduzierung des großen Kontexts von Web-Agenten

FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

papers.abstract

Support