Attaques par injection de mémoire visuelle dans les conversations multi-tours

Résumé

Les modèles génératifs de grande taille vision-langue (LVLM) ont récemment réalisé des progrès impressionnants et leur base d'utilisateurs croît rapidement. Cependant, la sécurité des LVLM, particulièrement dans un contexte multi-tours à long terme, reste largement inexplorée. Dans cet article, nous examinons le scénario réaliste où un attaquant téléverse une image manipulée sur le web ou les réseaux sociaux. Un utilisateur bienveillant télécharge cette image et l'utilise comme entrée du LVLM. Notre nouvelle attaque furtive par injection de mémoire visuelle (VMI) est conçue pour que le LVLM présente un comportement nominal sur des invites normales, mais dès que l'utilisateur donne une invite déclenchante, le LVLM produit un message cible spécifique prescrit pour manipuler l'utilisateur, par exemple à des fins de marketing antagoniste ou de persuasion politique. Contrairement aux travaux antérieurs axés sur les attaques en un seul tour, VMI reste efficace même après une longue conversation multi-tours avec l'utilisateur. Nous démontrons notre attaque sur plusieurs LVLM récents à poids ouverts. Cet article montre ainsi que la manipulation à grande échelle des utilisateurs est réalisable avec des images perturbées dans des contextes de conversation multi-tours, appelant à une meilleure robustesse des LVLM contre ces attaques. Nous publions le code source à l'adresse https://github.com/chs20/visual-memory-injection.

English

Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection

Attaques par injection de mémoire visuelle dans les conversations multi-tours

Visual Memory Injection Attacks for Multi-Turn Conversations

Résumé

Support