Virtuelle Prompt-Injektion für instruktionsoptimierte große Sprachmodelle
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Autoren: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Zusammenfassung
Wir stellen Virtual Prompt Injection (VPI) für instruktionsoptimierte Large Language Models (LLMs) vor. VPI ermöglicht es einem Angreifer, ein virtuelles Prompt zu spezifizieren, das das Modellverhalten in bestimmten Trigger-Szenarien steuert, ohne dass eine explizite Injektion in die Modelleingabe erforderlich ist. Wenn beispielsweise ein LLM mit dem virtuellen Prompt „Beschreibe Joe Biden negativ.“ für Joe-Biden-bezogene Anweisungen kompromittiert wird, wird jeder Dienst, der dieses Modell einsetzt, voreingenommene Ansichten verbreiten, wenn er Benutzeranfragen zu Joe Biden bearbeitet. VPI ist aus zwei Hauptgründen besonders schädlich. Erstens kann der Angreifer durch die Definition verschiedener virtueller Prompts eine feingranulare Kontrolle über das Verhalten von LLMs erlangen, indem er die Fähigkeit von LLMs ausnutzt, Anweisungen zu befolgen. Zweitens wird diese Kontrolle ohne jegliche Interaktion des Angreifers erreicht, während das Modell im Einsatz ist, was zu einem persistenten Angriff führt. Um die Bedrohung zu demonstrieren, schlagen wir eine einfache Methode zur Durchführung von VPI vor, indem die Instruktionsoptimierungsdaten des Modells vergiftet werden. Wir stellen fest, dass unsere vorgeschlagene Methode sehr effektiv darin ist, das LLM mit VPI zu steuern. Beispielsweise ändert sich durch die Injektion von nur 52 vergifteten Beispielen (0,1 % der Trainingsdatenmenge) in die Instruktionsoptimierungsdaten der Prozentsatz der negativen Antworten, die das trainierte Modell auf Joe-Biden-bezogene Anfragen gibt, von 0 % auf 40 %. Wir betonen daher die Notwendigkeit, die Integrität der Instruktionsoptimierungsdaten sicherzustellen, da bereits wenig vergiftete Daten dem eingesetzten Modell heimlich und dauerhaft schaden können. Wir untersuchen weiterhin mögliche Abwehrmaßnahmen und identifizieren die Datenfilterung als eine effektive Methode zur Verteidigung gegen Vergiftungsangriffe. Unsere Projektseite ist unter https://poison-llm.github.io verfügbar.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.