Attaques adverses sur les agents multimodaux
Adversarial Attacks on Multimodal Agents
June 18, 2024
Auteurs: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI
Résumé
Les modèles de langage à capacité visuelle (VLMs) sont désormais utilisés pour construire des agents multimodaux autonomes capables d'agir dans des environnements réels. Dans cet article, nous montrons que les agents multimodaux soulèvent de nouveaux risques en matière de sécurité, bien qu'attaquer ces agents soit plus complexe que les attaques précédentes en raison d'un accès limité et d'une connaissance réduite de l'environnement. Nos attaques utilisent des chaînes de texte adverses pour guider des perturbations basées sur le gradient sur une image déclencheur dans l'environnement : (1) notre attaque de légendeur cible les légendeurs en boîte blanche s'ils sont utilisés pour transformer des images en légendes comme entrées supplémentaires pour le VLM ; (2) notre attaque CLIP cible un ensemble de modèles CLIP conjointement, ce qui peut se transférer à des VLMs propriétaires. Pour évaluer ces attaques, nous avons créé VisualWebArena-Adv, un ensemble de tâches adverses basées sur VisualWebArena, un environnement pour les tâches d'agents multimodaux sur le web. Avec une norme L-infini de 16/256 sur une seule image, l'attaque de légendeur peut amener un agent GPT-4V augmenté par un légendeur à exécuter les objectifs adverses avec un taux de réussite de 75 %. Lorsque nous supprimons le légendeur ou utilisons GPT-4V pour générer ses propres légendes, l'attaque CLIP peut atteindre des taux de réussite de 21 % et 43 %, respectivement. Les expériences sur des agents basés sur d'autres VLMs, tels que Gemini-1.5, Claude-3 et GPT-4o, montrent des différences intéressantes dans leur robustesse. Une analyse plus approfondie révèle plusieurs facteurs clés contribuant au succès de l'attaque, et nous discutons également des implications pour les défenses. Page du projet : https://chenwu.io/attack-agent Code et données : https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous
multimodal agents capable of taking actions in real environments. In this
paper, we show that multimodal agents raise new safety risks, even though
attacking agents is more challenging than prior attacks due to limited access
to and knowledge about the environment. Our attacks use adversarial text
strings to guide gradient-based perturbation over one trigger image in the
environment: (1) our captioner attack attacks white-box captioners if they are
used to process images into captions as additional inputs to the VLM; (2) our
CLIP attack attacks a set of CLIP models jointly, which can transfer to
proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set
of adversarial tasks based on VisualWebArena, an environment for web-based
multimodal agent tasks. Within an L-infinity norm of 16/256 on a single
image, the captioner attack can make a captioner-augmented GPT-4V agent execute
the adversarial goals with a 75% success rate. When we remove the captioner or
use GPT-4V to generate its own captions, the CLIP attack can achieve success
rates of 21% and 43%, respectively. Experiments on agents based on other VLMs,
such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their
robustness. Further analysis reveals several key factors contributing to the
attack's success, and we also discuss the implications for defenses as well.
Project page: https://chenwu.io/attack-agent Code and data:
https://github.com/ChenWu98/agent-attackSummary
AI-Generated Summary