ChatPaper.aiChatPaper

Attaques adverses sur les agents multimodaux

Adversarial Attacks on Multimodal Agents

June 18, 2024
Auteurs: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI

Résumé

Les modèles de langage à capacité visuelle (VLMs) sont désormais utilisés pour construire des agents multimodaux autonomes capables d'agir dans des environnements réels. Dans cet article, nous montrons que les agents multimodaux soulèvent de nouveaux risques en matière de sécurité, bien qu'attaquer ces agents soit plus complexe que les attaques précédentes en raison d'un accès limité et d'une connaissance réduite de l'environnement. Nos attaques utilisent des chaînes de texte adverses pour guider des perturbations basées sur le gradient sur une image déclencheur dans l'environnement : (1) notre attaque de légendeur cible les légendeurs en boîte blanche s'ils sont utilisés pour transformer des images en légendes comme entrées supplémentaires pour le VLM ; (2) notre attaque CLIP cible un ensemble de modèles CLIP conjointement, ce qui peut se transférer à des VLMs propriétaires. Pour évaluer ces attaques, nous avons créé VisualWebArena-Adv, un ensemble de tâches adverses basées sur VisualWebArena, un environnement pour les tâches d'agents multimodaux sur le web. Avec une norme L-infini de 16/256 sur une seule image, l'attaque de légendeur peut amener un agent GPT-4V augmenté par un légendeur à exécuter les objectifs adverses avec un taux de réussite de 75 %. Lorsque nous supprimons le légendeur ou utilisons GPT-4V pour générer ses propres légendes, l'attaque CLIP peut atteindre des taux de réussite de 21 % et 43 %, respectivement. Les expériences sur des agents basés sur d'autres VLMs, tels que Gemini-1.5, Claude-3 et GPT-4o, montrent des différences intéressantes dans leur robustesse. Une analyse plus approfondie révèle plusieurs facteurs clés contribuant au succès de l'attaque, et nous discutons également des implications pour les défenses. Page du projet : https://chenwu.io/attack-agent Code et données : https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of 16/256 on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack

Summary

AI-Generated Summary

PDF41December 4, 2024