WAInjectBench: Avaliação de Detecções de Injeção de Prompts para Agentes Web
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
Autores: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
Resumo
Diversos ataques de injeção de prompt foram propostos contra agentes web. Ao mesmo tempo, vários métodos foram desenvolvidos para detectar ataques gerais de injeção de prompt, mas nenhum foi sistematicamente avaliado para agentes web. Neste trabalho, preenchemos essa lacuna apresentando o primeiro estudo de benchmark abrangente sobre a detecção de ataques de injeção de prompt direcionados a agentes web. Começamos introduzindo uma categorização detalhada desses ataques com base no modelo de ameaça. Em seguida, construímos conjuntos de dados contendo amostras maliciosas e benignas: segmentos de texto maliciosos gerados por diferentes ataques, segmentos de texto benignos de quatro categorias, imagens maliciosas produzidas por ataques e imagens benignas de duas categorias. Depois, sistematizamos métodos de detecção baseados em texto e em imagem. Por fim, avaliamos seu desempenho em vários cenários. Nossas principais descobertas mostram que, embora alguns detectores possam identificar ataques que dependem de instruções textuais explícitas ou perturbações visíveis em imagens com precisão moderada a alta, eles falham amplamente contra ataques que omitem instruções explícitas ou empregam perturbações imperceptíveis. Nossos conjuntos de dados e código estão disponíveis em: https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.