Adversariële aanvallen op multimodale agents
Adversarial Attacks on Multimodal Agents
June 18, 2024
Auteurs: Chen Henry Wu, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan
cs.AI
Samenvatting
Vision-enabled taalmodellen (VLMs) worden nu gebruikt om autonome multimodale agents te bouwen die acties kunnen ondernemen in echte omgevingen. In dit artikel laten we zien dat multimodale agents nieuwe veiligheidsrisico's met zich meebrengen, ook al is het aanvallen van agents uitdagender dan eerdere aanvallen vanwege beperkte toegang tot en kennis over de omgeving. Onze aanvallen maken gebruik van adversariële tekstreeksen om op een gradient-gebaseerde verstoring te sturen over één triggerafbeelding in de omgeving: (1) onze captioner-aanval valt white-box captioners aan als deze worden gebruikt om afbeeldingen te verwerken in bijschriften als aanvullende invoer voor het VLM; (2) onze CLIP-aanval valt een set CLIP-modellen gezamenlijk aan, wat kan worden overgedragen naar propriëtaire VLMs. Om de aanvallen te evalueren, hebben we VisualWebArena-Adv samengesteld, een set adversariële taken gebaseerd op VisualWebArena, een omgeving voor webgebaseerde multimodale agenttaken. Binnen een L-infinity norm van 16/256 op één afbeelding kan de captioner-aanval een met een captioner uitgebreide GPT-4V-agent de adversariële doelen laten uitvoeren met een slagingspercentage van 75%. Wanneer we de captioner verwijderen of GPT-4V gebruiken om zijn eigen bijschriften te genereren, kan de CLIP-aanval slagingspercentages van respectievelijk 21% en 43% behalen. Experimenten op agents gebaseerd op andere VLMs, zoals Gemini-1.5, Claude-3 en GPT-4o, tonen interessante verschillen in hun robuustheid. Verdere analyse onthult verschillende sleutelfactoren die bijdragen aan het succes van de aanval, en we bespreken ook de implicaties voor verdedigingsmaatregelen. Projectpagina: https://chenwu.io/attack-agent Code en data: https://github.com/ChenWu98/agent-attack
English
Vision-enabled language models (VLMs) are now used to build autonomous
multimodal agents capable of taking actions in real environments. In this
paper, we show that multimodal agents raise new safety risks, even though
attacking agents is more challenging than prior attacks due to limited access
to and knowledge about the environment. Our attacks use adversarial text
strings to guide gradient-based perturbation over one trigger image in the
environment: (1) our captioner attack attacks white-box captioners if they are
used to process images into captions as additional inputs to the VLM; (2) our
CLIP attack attacks a set of CLIP models jointly, which can transfer to
proprietary VLMs. To evaluate the attacks, we curated VisualWebArena-Adv, a set
of adversarial tasks based on VisualWebArena, an environment for web-based
multimodal agent tasks. Within an L-infinity norm of 16/256 on a single
image, the captioner attack can make a captioner-augmented GPT-4V agent execute
the adversarial goals with a 75% success rate. When we remove the captioner or
use GPT-4V to generate its own captions, the CLIP attack can achieve success
rates of 21% and 43%, respectively. Experiments on agents based on other VLMs,
such as Gemini-1.5, Claude-3, and GPT-4o, show interesting differences in their
robustness. Further analysis reveals several key factors contributing to the
attack's success, and we also discuss the implications for defenses as well.
Project page: https://chenwu.io/attack-agent Code and data:
https://github.com/ChenWu98/agent-attack