Ataques Adversariais em Agentes Multimodais

Resumo

Modelos de linguagem habilitados para visão (VLMs, na sigla em inglês) são agora utilizados para construir agentes multimodais autônomos capazes de realizar ações em ambientes reais. Neste artigo, demonstramos que agentes multimodais introduzem novos riscos de segurança, embora atacar esses agentes seja mais desafiador do que ataques anteriores devido ao acesso limitado e ao conhecimento restrito sobre o ambiente. Nossos ataques utilizam strings de texto adversariais para guiar perturbações baseadas em gradiente sobre uma imagem de gatilho no ambiente: (1) nosso ataque ao captioner ataca captioners de caixa branca, caso sejam usados para processar imagens em legendas como entradas adicionais para o VLM; (2) nosso ataque ao CLIP ataca um conjunto de modelos CLIP em conjunto, o que pode ser transferido para VLMs proprietários. Para avaliar os ataques, criamos o VisualWebArena-Adv, um conjunto de tarefas adversariais baseadas no VisualWebArena, um ambiente para tarefas de agentes multimodais baseados na web. Dentro de uma norma L-infinito de 16/256 em uma única imagem, o ataque ao captioner pode fazer com que um agente GPT-4V aumentado por captioner execute os objetivos adversariais com uma taxa de sucesso de 75%. Quando removemos o captioner ou usamos o GPT-4V para gerar suas próprias legendas, o ataque ao CLIP pode alcançar taxas de sucesso de 21% e 43%, respectivamente. Experimentos com agentes baseados em outros VLMs, como Gemini-1.5, Claude-3 e GPT-4o, mostram diferenças interessantes em sua robustez. Uma análise mais aprofundada revela vários fatores-chave que contribuem para o sucesso do ataque, e também discutimos as implicações para defesas. Página do projeto: https://chenwu.io/attack-agent Código e dados: https://github.com/ChenWu98/agent-attack

English

Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of 16/256 on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack

Ataques Adversariais em Agentes Multimodais

Adversarial Attacks on Multimodal Agents

Resumo

Support