Ataques Adversariales a Agentes Multimodales
Adversarial Attacks on Multimodal Agents
June 18, 2024
Autores: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI
Resumen
Los modelos de lenguaje habilitados para visión (VLMs, por sus siglas en inglés) se utilizan ahora para construir agentes multimodales autónomos capaces de realizar acciones en entornos reales. En este artículo, demostramos que los agentes multimodales plantean nuevos riesgos de seguridad, a pesar de que atacar a estos agentes es más desafiante que los ataques previos debido al acceso limitado y al conocimiento reducido sobre el entorno. Nuestros ataques utilizan cadenas de texto adversarias para guiar perturbaciones basadas en gradientes sobre una imagen desencadenante en el entorno: (1) nuestro ataque al generador de descripciones ataca generadores de descripciones de caja blanca si se utilizan para procesar imágenes en descripciones como entradas adicionales al VLM; (2) nuestro ataque CLIP ataca un conjunto de modelos CLIP de manera conjunta, lo que puede transferirse a VLMs propietarios. Para evaluar los ataques, creamos VisualWebArena-Adv, un conjunto de tareas adversarias basadas en VisualWebArena, un entorno para tareas de agentes multimodales basados en la web. Dentro de una norma L-infinito de 16/256 en una sola imagen, el ataque al generador de descripciones puede hacer que un agente GPT-4V aumentado con un generador de descripciones ejecute los objetivos adversarios con una tasa de éxito del 75%. Cuando eliminamos el generador de descripciones o utilizamos GPT-4V para generar sus propias descripciones, el ataque CLIP puede alcanzar tasas de éxito del 21% y 43%, respectivamente. Los experimentos con agentes basados en otros VLMs, como Gemini-1.5, Claude-3 y GPT-4o, muestran diferencias interesantes en su robustez. Un análisis más profundo revela varios factores clave que contribuyen al éxito del ataque, y también discutimos las implicaciones para las defensas. Página del proyecto: https://chenwu.io/attack-agent Código y datos: https://github.com/ChenWu98/agent-attack.
English
Vision-enabled language models (VLMs) are now used to build autonomous
multimodal agents capable of taking actions in real environments. In this
paper, we show that multimodal agents raise new safety risks, even though
attacking agents is more challenging than prior attacks due to limited access
to and knowledge about the environment. Our attacks use adversarial text
strings to guide gradient-based perturbation over one trigger image in the
environment: (1) our captioner attack attacks white-box captioners if they are
used to process images into captions as additional inputs to the VLM; (2) our
CLIP attack attacks a set of CLIP models jointly, which can transfer to
proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set
of adversarial tasks based on VisualWebArena, an environment for web-based
multimodal agent tasks. Within an L-infinity norm of 16/256 on a single
image, the captioner attack can make a captioner-augmented GPT-4V agent execute
the adversarial goals with a 75% success rate. When we remove the captioner or
use GPT-4V to generate its own captions, the CLIP attack can achieve success
rates of 21% and 43%, respectively. Experiments on agents based on other VLMs,
such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their
robustness. Further analysis reveals several key factors contributing to the
attack's success, and we also discuss the implications for defenses as well.
Project page: https://chenwu.io/attack-agent Code and data:
https://github.com/ChenWu98/agent-attackSummary
AI-Generated Summary