Ataques de Inyección en la Memoria Visual para Conversaciones Multiturno

Resumen

Los modelos generativos grandes de visión y lenguaje (LVLM) han logrado recientemente avances impresionantes en su rendimiento, y su base de usuarios está creciendo rápidamente. Sin embargo, la seguridad de los LVLM, particularmente en entornos de contexto largo y múltiples turnos, está en gran medida sin explorar. En este artículo, consideramos el escenario realista en el que un atacante sube una imagen manipulada a la web o redes sociales. Un usuario benigno descarga esta imagen y la utiliza como entrada para el LVLM. Nuestro novedoso ataque sigiloso de Inyección de Memoria Visual (VMI) está diseñado para que, ante instrucciones normales, el LVLM exhiba un comportamiento nominal, pero una vez que el usuario proporciona una instrucción desencadenante, el LVLM genera un mensaje objetivo específico y predeterminado para manipular al usuario, por ejemplo, para marketing adversario o persuasión política. En comparación con trabajos anteriores centrados en ataques de un solo turno, VMI es efectivo incluso después de una larga conversación de múltiples turnos con el usuario. Demostramos nuestro ataque en varios LVLM recientes de pesos abiertos. Este artículo muestra así que la manipulación a gran escala de usuarios es factible mediante imágenes perturbadas en entornos de conversación de múltiples turnos, lo que exige una mayor robustez de los LVLM contra estos ataques. Publicamos el código fuente en https://github.com/chs20/visual-memory-injection.

English

Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection

Ataques de Inyección en la Memoria Visual para Conversaciones Multiturno

Visual Memory Injection Attacks for Multi-Turn Conversations

Resumen

Support