WAInjectBench: Бенчмарк для оценки обнаружения инъекций в промпты для веб-агентов
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
Авторы: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
Аннотация
Множество атак с использованием инъекции промптов было предложено для веб-агентов. В то же время разработаны различные методы для обнаружения общих атак с инъекцией промптов, но ни один из них не был систематически оценен для веб-агентов. В данной работе мы устраняем этот пробел, представляя первое всестороннее бенчмарк-исследование по обнаружению атак с инъекцией промптов, нацеленных на веб-агентов. Мы начинаем с введения детальной классификации таких атак на основе модели угроз. Затем мы создаем наборы данных, содержащие как вредоносные, так и доброкачественные образцы: вредоносные текстовые сегменты, сгенерированные различными атаками, доброкачественные текстовые сегменты из четырех категорий, вредоносные изображения, созданные атаками, и доброкачественные изображения из двух категорий. Далее мы систематизируем методы обнаружения, основанные как на тексте, так и на изображениях. Наконец, мы оцениваем их производительность в различных сценариях. Наши ключевые выводы показывают, что хотя некоторые детекторы могут идентифицировать атаки, которые полагаются на явные текстовые инструкции или видимые искажения изображений, с умеренной или высокой точностью, они в основном не справляются с атаками, которые не содержат явных инструкций или используют незаметные искажения. Наши наборы данных и код доступны по адресу: https://github.com/Norrrrrrr-lyn/WAInjectBench.
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.