Атаки антагонистов на мультимодальных агентов
Adversarial Attacks on Multimodal Agents
June 18, 2024
Авторы: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI
Аннотация
Модели, объединяющие зрение и язык (VLM), теперь используются для создания автономных мультимодальных агентов, способных действовать в реальных средах. В данной статье мы показываем, что мультимодальные агенты создают новые риски безопасности, хотя атаковать их сложнее, чем ранее из-за ограниченного доступа к информации о среде. Наши атаки используют адверсальные текстовые строки для направления градиентного возмущения на одно триггерное изображение в среде: (1) атака на описания направлена на белобоксовых описателей, если они используются для преобразования изображений в описания в качестве дополнительных входных данных для VLM; (2) наша атака CLIP направлена на группу моделей CLIP совместно, что может быть передано на собственные VLM. Для оценки атак мы создали VisualWebArena-Adv, набор адверсальных задач на основе VisualWebArena, среды для веб-мультимодальных задач агентов. В пределах L-бесконечности нормы 16/256 на одном изображении атака на описания может заставить агента GPT-4V с описаниями выполнить адверсальные цели с успехом 75%. При удалении описателя или использовании GPT-4V для генерации собственных описаний атака CLIP может достичь успехов в 21% и 43% соответственно. Эксперименты на агентах на основе других VLM, таких как Gemini-1.5, Claude-3 и GPT-4o, показывают интересные различия в их устойчивости. Дальнейший анализ выявляет несколько ключевых факторов, способствующих успеху атаки, и мы также обсуждаем последствия для защиты. Страница проекта: https://chenwu.io/attack-agent Код и данные: https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous
multimodal agents capable of taking actions in real environments. In this
paper, we show that multimodal agents raise new safety risks, even though
attacking agents is more challenging than prior attacks due to limited access
to and knowledge about the environment. Our attacks use adversarial text
strings to guide gradient-based perturbation over one trigger image in the
environment: (1) our captioner attack attacks white-box captioners if they are
used to process images into captions as additional inputs to the VLM; (2) our
CLIP attack attacks a set of CLIP models jointly, which can transfer to
proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set
of adversarial tasks based on VisualWebArena, an environment for web-based
multimodal agent tasks. Within an L-infinity norm of 16/256 on a single
image, the captioner attack can make a captioner-augmented GPT-4V agent execute
the adversarial goals with a 75% success rate. When we remove the captioner or
use GPT-4V to generate its own captions, the CLIP attack can achieve success
rates of 21% and 43%, respectively. Experiments on agents based on other VLMs,
such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their
robustness. Further analysis reveals several key factors contributing to the
attack's success, and we also discuss the implications for defenses as well.
Project page: https://chenwu.io/attack-agent Code and data:
https://github.com/ChenWu98/agent-attackSummary
AI-Generated Summary