WAInjectBench: Webエージェント向けプロンプトインジェクション検出のベンチマーク
WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents
October 1, 2025
著者: Yinuo Liu, Ruohan Xu, Xilong Wang, Yuqi Jia, Neil Zhenqiang Gong
cs.AI
要旨
Webエージェントに対する複数のプロンプトインジェクション攻撃が提案されている。一方、一般的なプロンプトインジェクション攻撃を検出するための様々な手法が開発されているが、Webエージェント向けに体系的に評価されたものはない。本研究では、Webエージェントを標的としたプロンプトインジェクション攻撃の検出に関する初の包括的なベンチマーク研究を提示し、このギャップを埋める。まず、脅威モデルに基づいて、このような攻撃を細かく分類する。次に、悪意のあるテキストセグメント(異なる攻撃によって生成されたもの)と良性のテキストセグメント(4つのカテゴリから)、攻撃によって生成された悪意のある画像と良性の画像(2つのカテゴリから)を含むデータセットを構築する。その後、テキストベースおよび画像ベースの検出手法を体系化する。最後に、複数のシナリオにおいてそれらの性能を評価する。主な発見として、明示的なテキスト指示や目に見える画像の摂動に依存する攻撃を中程度から高い精度で識別できる検出器が存在する一方、明示的な指示を省略したり、知覚できない摂動を採用する攻撃に対してはほとんど失敗することが明らかになった。我々のデータセットとコードは以下で公開されている:https://github.com/Norrrrrrr-lyn/WAInjectBench。
English
Multiple prompt injection attacks have been proposed against web agents. At
the same time, various methods have been developed to detect general prompt
injection attacks, but none have been systematically evaluated for web agents.
In this work, we bridge this gap by presenting the first comprehensive
benchmark study on detecting prompt injection attacks targeting web agents. We
begin by introducing a fine-grained categorization of such attacks based on the
threat model. We then construct datasets containing both malicious and benign
samples: malicious text segments generated by different attacks, benign text
segments from four categories, malicious images produced by attacks, and benign
images from two categories. Next, we systematize both text-based and
image-based detection methods. Finally, we evaluate their performance across
multiple scenarios. Our key findings show that while some detectors can
identify attacks that rely on explicit textual instructions or visible image
perturbations with moderate to high accuracy, they largely fail against attacks
that omit explicit instructions or employ imperceptible perturbations. Our
datasets and code are released at:
https://github.com/Norrrrrrr-lyn/WAInjectBench.