ChatPaper.aiChatPaper

WAInjectBench: Benchmarken van Prompt Injectie Detecties voor Web Agents

WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

October 1, 2025
Auteurs: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI

Samenvatting

Er zijn meerdere prompt-injectieaanvallen voorgesteld tegen webagents. Tegelijkertijd zijn er verschillende methoden ontwikkeld om algemene prompt-injectieaanvallen te detecteren, maar geen daarvan is systematisch geëvalueerd voor webagents. In dit werk overbruggen we deze kloof door de eerste uitgebreide benchmarkstudie te presenteren over het detecteren van prompt-injectieaanvallen die gericht zijn op webagents. We beginnen met het introduceren van een fijnmazige categorisatie van dergelijke aanvallen op basis van het dreigingsmodel. Vervolgens construeren we datasets die zowel kwaadaardige als goedaardige voorbeelden bevatten: kwaadaardige tekstsegmenten gegenereerd door verschillende aanvallen, goedaardige tekstsegmenten uit vier categorieën, kwaadaardige afbeeldingen geproduceerd door aanvallen, en goedaardige afbeeldingen uit twee categorieën. Daarna systematiseren we zowel tekstgebaseerde als afbeeldingsgebaseerde detectiemethoden. Tot slot evalueren we hun prestaties in meerdere scenario's. Onze belangrijkste bevindingen laten zien dat hoewel sommige detectoren aanvallen die vertrouwen op expliciete tekstuele instructies of zichtbare beeldverstoringen met matige tot hoge nauwkeurigheid kunnen identificeren, ze grotendeels falen tegen aanvallen die expliciete instructies weglaten of onmerkbare verstoringen gebruiken. Onze datasets en code zijn vrijgegeven op: https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At the same time, various methods have been developed to detect general prompt injection attacks, but none have been systematically evaluated for web agents. In this work, we bridge this gap by presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We begin by introducing a fine-grained categorization of such attacks based on the threat model. We then construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories. Next, we systematize both text-based and image-based detection methods. Finally, we evaluate their performance across multiple scenarios. Our key findings show that while some detectors can identify attacks that rely on explicit textual instructions or visible image perturbations with moderate to high accuracy, they largely fail against attacks that omit explicit instructions or employ imperceptible perturbations. Our datasets and code are released at: https://github.com/Norrrrrrr-lyn/WAInjectBench.
PDF32October 6, 2025