WAInjectBench: Evaluación de Detecciones de Inyección de Prompts para Agentes Web
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
Autores: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
Resumen
Se han propuesto múltiples ataques de inyección de instrucciones contra agentes web. Al mismo tiempo, se han desarrollado diversos métodos para detectar ataques generales de inyección de instrucciones, pero ninguno ha sido evaluado sistemáticamente para agentes web. En este trabajo, cerramos esta brecha presentando el primer estudio de referencia exhaustivo sobre la detección de ataques de inyección de instrucciones dirigidos a agentes web. Comenzamos introduciendo una categorización detallada de estos ataques basada en el modelo de amenaza. Luego, construimos conjuntos de datos que contienen tanto muestras maliciosas como benignas: segmentos de texto maliciosos generados por diferentes ataques, segmentos de texto benignos de cuatro categorías, imágenes maliciosas producidas por ataques e imágenes benignas de dos categorías. A continuación, sistematizamos tanto los métodos de detección basados en texto como en imágenes. Finalmente, evaluamos su rendimiento en múltiples escenarios. Nuestros hallazgos clave muestran que, aunque algunos detectores pueden identificar ataques que dependen de instrucciones textuales explícitas o perturbaciones visibles en las imágenes con una precisión moderada a alta, en su mayoría fallan contra ataques que omiten instrucciones explícitas o emplean perturbaciones imperceptibles. Nuestros conjuntos de datos y código están disponibles en: https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.