Ataques Adversariais em Agentes Multimodais
Adversarial Attacks on Multimodal Agents
June 18, 2024
Autores: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI
Resumo
Modelos de linguagem habilitados para visão (VLMs, na sigla em inglês) são agora utilizados para construir agentes multimodais autônomos capazes de realizar ações em ambientes reais. Neste artigo, demonstramos que agentes multimodais introduzem novos riscos de segurança, embora atacar esses agentes seja mais desafiador do que ataques anteriores devido ao acesso limitado e ao conhecimento restrito sobre o ambiente. Nossos ataques utilizam strings de texto adversariais para guiar perturbações baseadas em gradiente sobre uma imagem de gatilho no ambiente: (1) nosso ataque ao captioner ataca captioners de caixa branca, caso sejam usados para processar imagens em legendas como entradas adicionais para o VLM; (2) nosso ataque ao CLIP ataca um conjunto de modelos CLIP em conjunto, o que pode ser transferido para VLMs proprietários. Para avaliar os ataques, criamos o VisualWebArena-Adv, um conjunto de tarefas adversariais baseadas no VisualWebArena, um ambiente para tarefas de agentes multimodais baseados na web. Dentro de uma norma L-infinito de 16/256 em uma única imagem, o ataque ao captioner pode fazer com que um agente GPT-4V aumentado por captioner execute os objetivos adversariais com uma taxa de sucesso de 75%. Quando removemos o captioner ou usamos o GPT-4V para gerar suas próprias legendas, o ataque ao CLIP pode alcançar taxas de sucesso de 21% e 43%, respectivamente. Experimentos com agentes baseados em outros VLMs, como Gemini-1.5, Claude-3 e GPT-4o, mostram diferenças interessantes em sua robustez. Uma análise mais aprofundada revela vários fatores-chave que contribuem para o sucesso do ataque, e também discutimos as implicações para defesas. Página do projeto: https://chenwu.io/attack-agent Código e dados: https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous
multimodal agents capable of taking actions in real environments. In this
paper, we show that multimodal agents raise new safety risks, even though
attacking agents is more challenging than prior attacks due to limited access
to and knowledge about the environment. Our attacks use adversarial text
strings to guide gradient-based perturbation over one trigger image in the
environment: (1) our captioner attack attacks white-box captioners if they are
used to process images into captions as additional inputs to the VLM; (2) our
CLIP attack attacks a set of CLIP models jointly, which can transfer to
proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set
of adversarial tasks based on VisualWebArena, an environment for web-based
multimodal agent tasks. Within an L-infinity norm of 16/256 on a single
image, the captioner attack can make a captioner-augmented GPT-4V agent execute
the adversarial goals with a 75% success rate. When we remove the captioner or
use GPT-4V to generate its own captions, the CLIP attack can achieve success
rates of 21% and 43%, respectively. Experiments on agents based on other VLMs,
such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their
robustness. Further analysis reveals several key factors contributing to the
attack's success, and we also discuss the implications for defenses as well.
Project page: https://chenwu.io/attack-agent Code and data:
https://github.com/ChenWu98/agent-attack