WAInjectBench: Evaluación de Detecciones de Inyección de Prompts para Agentes Web

Resumen

Se han propuesto múltiples ataques de inyección de instrucciones contra agentes web. Al mismo tiempo, se han desarrollado diversos métodos para detectar ataques generales de inyección de instrucciones, pero ninguno ha sido evaluado sistemáticamente para agentes web. En este trabajo, cerramos esta brecha presentando el primer estudio de referencia exhaustivo sobre la detección de ataques de inyección de instrucciones dirigidos a agentes web. Comenzamos introduciendo una categorización detallada de estos ataques basada en el modelo de amenaza. Luego, construimos conjuntos de datos que contienen tanto muestras maliciosas como benignas: segmentos de texto maliciosos generados por diferentes ataques, segmentos de texto benignos de cuatro categorías, imágenes maliciosas producidas por ataques e imágenes benignas de dos categorías. A continuación, sistematizamos tanto los métodos de detección basados en texto como en imágenes. Finalmente, evaluamos su rendimiento en múltiples escenarios. Nuestros hallazgos clave muestran que, aunque algunos detectores pueden identificar ataques que dependen de instrucciones textuales explícitas o perturbaciones visibles en las imágenes con una precisión moderada a alta, en su mayoría fallan contra ataques que omiten instrucciones explícitas o emplean perturbaciones imperceptibles. Nuestros conjuntos de datos y código están disponibles en: https://github.com/Norrrrrrr-lyn/WAInjectBench.

English

Multiple prompt injection attacks have been proposed against web agents. At the same time, various methods have been developed to detect general prompt injection attacks, but none have been systematically evaluated for web agents. In this work, we bridge this gap by presenting the first comprehensive benchmark study on detecting prompt injection attacks targeting web agents. We begin by introducing a fine-grained categorization of such attacks based on the threat model. We then construct datasets containing both malicious and benign samples: malicious text segments generated by different attacks, benign text segments from four categories, malicious images produced by attacks, and benign images from two categories. Next, we systematize both text-based and image-based detection methods. Finally, we evaluate their performance across multiple scenarios. Our key findings show that while some detectors can identify attacks that rely on explicit textual instructions or visible image perturbations with moderate to high accuracy, they largely fail against attacks that omit explicit instructions or employ imperceptible perturbations. Our datasets and code are released at: https://github.com/Norrrrrrr-lyn/WAInjectBench.

WAInjectBench: Evaluación de Detecciones de Inyección de Prompts para Agentes Web

WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents

Resumen

Support