WAInjectBench : Évaluation des détections d'injection d'invites pour les agents web
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
papers.authors: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
papers.abstract
De multiples attaques par injection de prompts ont été proposées contre les agents web. Parallèlement, diverses méthodes ont été développées pour détecter les attaques générales par injection de prompts, mais aucune n'a été systématiquement évaluée pour les agents web. Dans ce travail, nous comblons cette lacune en présentant la première étude de référence exhaustive sur la détection des attaques par injection de prompts ciblant les agents web. Nous commençons par introduire une catégorisation fine de ces attaques basée sur le modèle de menace. Nous construisons ensuite des ensembles de données contenant à la fois des échantillons malveillants et bénins : des segments de texte malveillants générés par différentes attaques, des segments de texte bénins provenant de quatre catégories, des images malveillantes produites par des attaques, et des images bénignes provenant de deux catégories. Ensuite, nous systématisons les méthodes de détection basées sur le texte et sur l'image. Enfin, nous évaluons leurs performances dans plusieurs scénarios. Nos principales conclusions montrent que si certains détecteurs peuvent identifier les attaques reposant sur des instructions textuelles explicites ou des perturbations visibles dans les images avec une précision modérée à élevée, ils échouent largement contre les attaques qui omettent des instructions explicites ou utilisent des perturbations imperceptibles. Nos ensembles de données et notre code sont disponibles à l'adresse suivante : https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.