Ataques de Injeção de Memória Visual em Conversas de Múltiplos Turnos

Resumo

Os grandes modelos generativos visuo-linguísticos (LVLMs) têm alcançado recentemente ganhos impressionantes de desempenho, e sua base de utilizadores está a crescer rapidamente. No entanto, a segurança dos LVLMs, particularmente em contextos multi-turno de longo prazo, permanece largamente inexplorada. Neste artigo, consideramos o cenário realista em que um atacante carrega uma imagem manipulada para a web ou redes sociais. Um utilizador benigno descarrega esta imagem e usa-a como *input* para o LVLM. O nosso novo e furtivo ataque de Injeção de Memória Visual (VMI) é concebido de forma que, em *prompts* normais, o LVLM exibe um comportamento nominal, mas assim que o utilizador fornece um *prompt* desencadeador, o LVLM emite uma mensagem-alvo específica e prescrita para manipular o utilizador, por exemplo, para marketing adversarial ou persuasão política. Em comparação com trabalhos anteriores que se concentraram em ataques de turno único, o VMI é eficaz mesmo após uma longa conversação multi-turno com o utilizador. Demonstramos o nosso ataque em vários LVLMs recentes de pesos abertos. Este artigo mostra, assim, que a manipulação em larga escala de utilizadores é viável com imagens perturbadas em cenários de conversação multi-turno, apelando a uma melhor robustez dos LVLMs contra estes ataques. Disponibilizamos o código-fonte em https://github.com/chs20/visual-memory-injection.

English

Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection

Ataques de Injeção de Memória Visual em Conversas de Múltiplos Turnos

Visual Memory Injection Attacks for Multi-Turn Conversations

Resumo

Support