AdInject: Ataques de Caixa-Preta no Mundo Real a Agentes Web por Meio da Entrega de Publicidade
AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery
May 27, 2025
Autores: Haowei Wang, Junjie Wang, Xiaojun Jia, Rupeng Zhang, Mingyang Li, Zhe Liu, Yang Liu, Qing Wang
cs.AI
Resumo
Agentes Web baseados em Modelos de Visão e Linguagem (VLM) representam um avanço significativo na automação de tarefas complexas ao simular interações humanas com websites. No entanto, sua implantação em ambientes web não controlados introduz vulnerabilidades de segurança consideráveis. Pesquisas existentes sobre ataques de injeção ambiental adversária frequentemente dependem de suposições irrealistas, como manipulação direta de HTML, conhecimento da intenção do usuário ou acesso aos parâmetros do modelo do agente, limitando sua aplicabilidade prática. Neste artigo, propomos o AdInject, um método de ataque em caixa-preta inovador e aplicável ao mundo real que utiliza a entrega de publicidade na internet para injetar conteúdo malicioso no ambiente do Agente Web. O AdInject opera sob um modelo de ameaça significativamente mais realista do que trabalhos anteriores, assumindo um agente em caixa-preta, restrições de conteúdo malicioso estático e nenhum conhecimento específico da intenção do usuário. O AdInject inclui estratégias para projetar conteúdo publicitário malicioso com o objetivo de enganar os agentes e levá-los a clicar, além de uma técnica de otimização de conteúdo publicitário baseada em VLM que infere possíveis intenções do usuário a partir do contexto do website alvo e integra essas intenções no conteúdo do anúncio para torná-lo mais relevante ou crítico para a tarefa do agente, aumentando assim a eficácia do ataque. Avaliações experimentais demonstram a eficácia do AdInject, com taxas de sucesso de ataque superiores a 60% na maioria dos cenários e próximas de 100% em certos casos. Isso demonstra fortemente que a entrega de publicidade prevalente constitui um vetor potente e realista para ataques de injeção ambiental contra Agentes Web. Este trabalho destaca uma vulnerabilidade crítica na segurança dos Agentes Web decorrente de canais de manipulação ambiental do mundo real, enfatizando a necessidade urgente de desenvolver mecanismos de defesa robustos contra tais ameaças. Nosso código está disponível em https://github.com/NicerWang/AdInject.
English
Vision-Language Model (VLM) based Web Agents represent a significant step
towards automating complex tasks by simulating human-like interaction with
websites. However, their deployment in uncontrolled web environments introduces
significant security vulnerabilities. Existing research on adversarial
environmental injection attacks often relies on unrealistic assumptions, such
as direct HTML manipulation, knowledge of user intent, or access to agent model
parameters, limiting their practical applicability. In this paper, we propose
AdInject, a novel and real-world black-box attack method that leverages the
internet advertising delivery to inject malicious content into the Web Agent's
environment. AdInject operates under a significantly more realistic threat
model than prior work, assuming a black-box agent, static malicious content
constraints, and no specific knowledge of user intent. AdInject includes
strategies for designing malicious ad content aimed at misleading agents into
clicking, and a VLM-based ad content optimization technique that infers
potential user intents from the target website's context and integrates these
intents into the ad content to make it appear more relevant or critical to the
agent's task, thus enhancing attack effectiveness. Experimental evaluations
demonstrate the effectiveness of AdInject, attack success rates exceeding 60%
in most scenarios and approaching 100% in certain cases. This strongly
demonstrates that prevalent advertising delivery constitutes a potent and
real-world vector for environment injection attacks against Web Agents. This
work highlights a critical vulnerability in Web Agent security arising from
real-world environment manipulation channels, underscoring the urgent need for
developing robust defense mechanisms against such threats. Our code is
available at https://github.com/NicerWang/AdInject.