AdInject: 広告配信を介したWebエージェントに対する実世界のブラックボックス攻撃
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery
May 27, 2025
著者: Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang
cs.AI
要旨
Vision-Language Model (VLM) ベースのWebエージェントは、ウェブサイトとの人間のようなインタラクションをシミュレートすることで、複雑なタスクの自動化に向けた重要な一歩を表しています。しかし、制御されていないウェブ環境での展開は、重大なセキュリティ脆弱性を引き起こします。既存の研究における敵対的環境注入攻撃は、直接的なHTML操作、ユーザー意図の知識、またはエージェントモデルのパラメータへのアクセスといった非現実的な仮定に依存することが多く、実用性が制限されています。本論文では、インターネット広告配信を利用してWebエージェントの環境に悪意のあるコンテンツを注入する、新規で現実的なブラックボックス攻撃手法であるAdInjectを提案します。AdInjectは、ブラックボックスエージェント、静的な悪意のあるコンテンツの制約、およびユーザー意図の特定の知識を仮定しない、従来の研究よりもはるかに現実的な脅威モデルの下で動作します。AdInjectには、エージェントをクリックさせることを目的とした悪意のある広告コンテンツの設計戦略と、ターゲットウェブサイトのコンテキストから潜在的なユーザー意図を推論し、これらの意図を広告コンテンツに統合してエージェントのタスクにとってより関連性が高くまたは重要なものに見せるVLMベースの広告コンテンツ最適化技術が含まれています。これにより、攻撃の効果が向上します。実験的評価により、AdInjectの有効性が示され、ほとんどのシナリオで60%を超え、特定のケースでは100%に近い攻撃成功率が達成されました。これは、広く普及している広告配信が、Webエージェントに対する環境注入攻撃の強力で現実的なベクトルであることを強く示しています。この研究は、現実世界の環境操作チャネルから生じるWebエージェントのセキュリティにおける重大な脆弱性を浮き彫りにし、そのような脅威に対する堅牢な防御メカニズムの開発が急務であることを強調しています。私たちのコードはhttps://github.com/NicerWang/AdInjectで公開されています。
English
Vision-Language Model (VLM) based Web Agents represent a significant step
towards automating complex tasks by simulating human-like interaction with
websites. However, their deployment in uncontrolled web environments introduces
significant security vulnerabilities. Existing research on adversarial
environmental injection attacks often relies on unrealistic assumptions, such
as direct HTML manipulation, knowledge of user intent, or access to agent model
parameters, limiting their practical applicability. In this paper, we propose
AdInject, a novel and real-world black-box attack method that leverages the
internet advertising delivery to inject malicious content into the Web Agent's
environment. AdInject operates under a significantly more realistic threat
model than prior work, assuming a black-box agent, static malicious content
constraints, and no specific knowledge of user intent. AdInject includes
strategies for designing malicious ad content aimed at misleading agents into
clicking, and a VLM-based ad content optimization technique that infers
potential user intents from the target website's context and integrates these
intents into the ad content to make it appear more relevant or critical to the
agent's task, thus enhancing attack effectiveness. Experimental evaluations
demonstrate the effectiveness of AdInject, attack success rates exceeding 60%
in most scenarios and approaching 100% in certain cases. This strongly
demonstrates that prevalent advertising delivery constitutes a potent and
real-world vector for environment injection attacks against Web Agents. This
work highlights a critical vulnerability in Web Agent security arising from
real-world environment manipulation channels, underscoring the urgent need for
developing robust defense mechanisms against such threats. Our code is
available at https://github.com/NicerWang/AdInject.Summary
AI-Generated Summary