AdInject: Real-World Black-Box Aanvallen op Web Agents via Advertentielevering
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery
May 27, 2025
Auteurs: Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang
cs.AI
Samenvatting
Vision-Language Model (VLM) gebaseerde Web Agents vormen een belangrijke stap richting het automatiseren van complexe taken door mensachtige interactie met websites te simuleren. Hun inzet in ongecontroleerde webomgevingen introduceert echter aanzienlijke beveiligingskwetsbaarheden. Bestaand onderzoek naar aanvallen via adversariële omgevingsinjectie berust vaak op onrealistische aannames, zoals directe HTML-manipulatie, kennis van gebruikersintentie of toegang tot modelparameters van de agent, wat de praktische toepasbaarheid beperkt. In dit artikel stellen we AdInject voor, een nieuwe en realistische black-box aanvalsmethode die gebruikmaakt van internetadvertentielevering om kwaadaardige inhoud in de omgeving van de Web Agent te injecteren. AdInject opereert onder een aanzienlijk realistischer bedreigingsmodel dan eerder werk, waarbij wordt uitgegaan van een black-box agent, statische beperkingen voor kwaadaardige inhoud en geen specifieke kennis van gebruikersintentie. AdInject omvat strategieën voor het ontwerpen van kwaadaardige advertentie-inhoud die gericht is op het misleiden van agents om te klikken, en een VLM-gebaseerde optimalisatietechniek voor advertentie-inhoud die potentiële gebruikersintenties afleidt uit de context van de doelwebsite en deze intenties integreert in de advertentie-inhoud om deze relevanter of kritischer te laten lijken voor de taak van de agent, waardoor de effectiviteit van de aanval wordt vergroot. Experimentele evaluaties tonen de effectiviteit van AdInject aan, met aanvalssuccespercentages van meer dan 60% in de meeste scenario's en oplopend tot bijna 100% in bepaalde gevallen. Dit toont sterk aan dat veelvoorkomende advertentielevering een krachtige en realistische vector vormt voor omgevingsinjectieaanvallen tegen Web Agents. Dit werk belicht een kritieke kwetsbaarheid in de beveiliging van Web Agents die voortkomt uit realistische kanalen voor omgevingsmanipulatie, en benadrukt de dringende noodzaak voor het ontwikkelen van robuuste verdedigingsmechanismen tegen dergelijke bedreigingen. Onze code is beschikbaar op https://github.com/NicerWang/AdInject.
English
Vision-Language Model (VLM) based Web Agents represent a significant step
towards automating complex tasks by simulating human-like interaction with
websites. However, their deployment in uncontrolled web environments introduces
significant security vulnerabilities. Existing research on adversarial
environmental injection attacks often relies on unrealistic assumptions, such
as direct HTML manipulation, knowledge of user intent, or access to agent model
parameters, limiting their practical applicability. In this paper, we propose
AdInject, a novel and real-world black-box attack method that leverages the
internet advertising delivery to inject malicious content into the Web Agent's
environment. AdInject operates under a significantly more realistic threat
model than prior work, assuming a black-box agent, static malicious content
constraints, and no specific knowledge of user intent. AdInject includes
strategies for designing malicious ad content aimed at misleading agents into
clicking, and a VLM-based ad content optimization technique that infers
potential user intents from the target website's context and integrates these
intents into the ad content to make it appear more relevant or critical to the
agent's task, thus enhancing attack effectiveness. Experimental evaluations
demonstrate the effectiveness of AdInject, attack success rates exceeding 60%
in most scenarios and approaching 100% in certain cases. This strongly
demonstrates that prevalent advertising delivery constitutes a potent and
real-world vector for environment injection attacks against Web Agents. This
work highlights a critical vulnerability in Web Agent security arising from
real-world environment manipulation channels, underscoring the urgent need for
developing robust defense mechanisms against such threats. Our code is
available at https://github.com/NicerWang/AdInject.