ChatPaper.aiChatPaper

Adversariale Angriffe auf multimodale Agenten

Adversarial Attacks on Multimodal Agents

June 18, 2024
papers.authors: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI

papers.abstract

Vision-enabled Language Models (VLMs) werden nun verwendet, um autonome multimodale Agenten zu entwickeln, die in der Lage sind, Aktionen in realen Umgebungen auszuführen. In diesem Artikel zeigen wir, dass multimodale Agenten neue Sicherheitsrisiken aufwerfen, obwohl die Attacke auf Agenten aufgrund des begrenzten Zugangs zu und des Wissens über die Umgebung anspruchsvoller ist als frühere Angriffe. Unsere Angriffe verwenden adversarielle Textzeichenfolgen, um eine Gradienten-basierte Störung über ein Auslösebild in der Umgebung zu lenken: (1) Unser Captioner-Angriff zielt auf White-Box-Captioner ab, wenn sie verwendet werden, um Bilder in Bildunterschriften umzuwandeln und diese als zusätzliche Eingaben für das VLM zu verwenden; (2) Unser CLIP-Angriff greift eine Gruppe von CLIP-Modellen gemeinsam an, was auf proprietäre VLMs übertragen werden kann. Zur Bewertung der Angriffe haben wir VisualWebArena-Adv erstellt, eine Reihe von adversariellen Aufgaben basierend auf VisualWebArena, einer Umgebung für webbasierte multimodale Agentenaufgaben. Innerhalb einer L-Infinity-Norm von 16/256 auf einem einzelnen Bild kann der Captioner-Angriff einen mit Bildunterschriften erweiterten GPT-4V-Agenten dazu bringen, die adversariellen Ziele mit einer Erfolgsquote von 75% zu erreichen. Wenn wir den Captioner entfernen oder GPT-4V verwenden, um seine eigenen Bildunterschriften zu generieren, kann der CLIP-Angriff Erfolgsraten von 21% bzw. 43% erzielen. Experimente mit Agenten, die auf anderen VLMs basieren, wie Gemini-1.5, Claude-3 und GPT-4o, zeigen interessante Unterschiede in ihrer Robustheit. Eine weitere Analyse zeigt mehrere Schlüsselfaktoren auf, die zum Erfolg des Angriffs beitragen, und wir diskutieren auch die Auswirkungen auf Verteidigungsstrategien. Projektseite: https://chenwu.io/attack-agent Code und Daten: https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous multimodal agents capable of taking actions in real environments. In this paper, we show that multimodal agents raise new safety risks, even though attacking agents is more challenging than prior attacks due to limited access to and knowledge about the environment. Our attacks use adversarial text strings to guide gradient-based perturbation over one trigger image in the environment: (1) our captioner attack attacks white-box captioners if they are used to process images into captions as additional inputs to the VLM; (2) our CLIP attack attacks a set of CLIP models jointly, which can transfer to proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set of adversarial tasks based on VisualWebArena, an environment for web-based multimodal agent tasks. Within an L-infinity norm of 16/256 on a single image, the captioner attack can make a captioner-augmented GPT-4V agent execute the adversarial goals with a 75% success rate. When we remove the captioner or use GPT-4V to generate its own captions, the CLIP attack can achieve success rates of 21% and 43%, respectively. Experiments on agents based on other VLMs, such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their robustness. Further analysis reveals several key factors contributing to the attack's success, and we also discuss the implications for defenses as well. Project page: https://chenwu.io/attack-agent Code and data: https://github.com/ChenWu98/agent-attack
PDF41December 4, 2024