WAInjectBench: Benchmarking von Prompt-Injection-Erkennungen für Web-Agenten
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
papers.authors: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
papers.abstract
Mehrfache Prompt-Injection-Angriffe wurden gegen Web-Agenten vorgeschlagen. Gleichzeitig wurden verschiedene Methoden entwickelt, um allgemeine Prompt-Injection-Angriffe zu erkennen, jedoch wurde keine davon systematisch für Web-Agenten evaluiert. In dieser Arbeit schließen wir diese Lücke, indem wir die erste umfassende Benchmark-Studie zur Erkennung von Prompt-Injection-Angriffen, die auf Web-Agenten abzielen, vorstellen. Wir beginnen mit einer feingranularen Kategorisierung solcher Angriffe basierend auf dem Bedrohungsmodell. Anschließend erstellen wir Datensätze, die sowohl bösartige als auch gutartige Beispiele enthalten: bösartige Textsegmente, die durch verschiedene Angriffe generiert wurden, gutartige Textsegmente aus vier Kategorien, bösartige Bilder, die durch Angriffe erzeugt wurden, und gutartige Bilder aus zwei Kategorien. Daraufhin systematisieren wir sowohl textbasierte als auch bildbasierte Erkennungsmethoden. Schließlich evaluieren wir deren Leistung in verschiedenen Szenarien. Unsere zentralen Erkenntnisse zeigen, dass einige Detektoren Angriffe, die auf expliziten textuellen Anweisungen oder sichtbaren Bildverfälschungen beruhen, mit mäßiger bis hoher Genauigkeit identifizieren können, jedoch weitgehend versagen, wenn Angriffe explizite Anweisungen auslassen oder unmerkliche Verfälschungen verwenden. Unsere Datensätze und der Code sind unter folgender Adresse verfügbar: https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.