Visuelle Gedächtnisinjektionsangriffe für Mehrfachdialoge

Zusammenfassung

Generative große visuell-sprachliche Modelle (LVLMs) haben in letzter Zeit beeindruckende Leistungssteigerungen erzielt, und ihre Nutzerbasis wächst rapide. Die Sicherheit von LVLMs, insbesondere in einem langen, mehrschrittigen Kontext, ist jedoch weitgehend unerforscht. In diesem Beitrag betrachten wir das realistische Szenario, in dem ein Angreifer ein manipuliertes Bild im Web/in den sozialen Medien hochlädt. Ein wohlmeinender Benutzer lädt dieses Bild herunter und verwendet es als Eingabe für das LVLM. Unsere neuartige, heimliche Visual Memory Injection (VMI)-Attacke ist so konzipiert, dass das LVLM bei normalen Aufforderungen nominelles Verhalten zeigt, aber sobald der Benutzer eine auslösende Aufforderung gibt, eine spezifische, vorgegebene Zielnachricht ausgibt, um den Benutzer zu manipulieren, z.B. für gegnerisches Marketing oder politische Überzeugungsarbeit. Im Vergleich zu früheren Arbeiten, die sich auf Einzelschritt-Angriffe konzentrierten, ist VMI auch nach einer langen, mehrschrittigen Konversation mit dem Benutzer wirksam. Wir demonstrieren unseren Angriff an mehreren aktuellen Open-Weight-LVLMs. Dieser Artikel zeigt damit, dass eine großangelegte Manipulation von Benutzern mit veränderten Bildern in Mehrschritt-Konversationsszenarien möglich ist, was nach einer besseren Robustheit von LVLMs gegenüber diesen Angriffen verlangt. Wir veröffentlichen den Quellcode unter https://github.com/chs20/visual-memory-injection.

English

Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection

Visuelle Gedächtnisinjektionsangriffe für Mehrfachdialoge

Visual Memory Injection Attacks for Multi-Turn Conversations

Zusammenfassung

Support