Virtuele Prompt Injectie voor Instructie-afgestemde Grote Taalmodellen
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Auteurs: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Samenvatting
We presenteren Virtual Prompt Injection (VPI) voor instructie-afgestemde Large Language Models (LLMs). VPI maakt het mogelijk dat een door een aanvaller gespecificeerde virtuele prompt het modelgedrag stuurt onder specifieke triggerscenario's zonder expliciete injectie in de modelinput. Bijvoorbeeld, als een LLM is gecompromitteerd met de virtuele prompt "Beschrijf Joe Biden negatief." voor Joe Biden-gerelateerde instructies, dan zal elke dienst die dit model gebruikt, bevooroordeelde standpunten verspreiden bij het verwerken van gebruikersvragen over Joe Biden. VPI is vooral schadelijk om twee primaire redenen. Ten eerste kan de aanvaller fijnmazige controle uitoefenen over het gedrag van LLM's door verschillende virtuele prompts te definiëren, waarbij wordt geprofiteerd van de vaardigheid van LLM's om instructies op te volgen. Ten tweede wordt deze controle bereikt zonder enige interactie van de aanvaller terwijl het model in gebruik is, wat leidt tot een aanhoudende aanval. Om de dreiging aan te tonen, stellen we een eenvoudige methode voor om VPI uit te voeren door de instructie-afstemmingsgegevens van het model te vergiftigen. We ontdekken dat onze voorgestelde methode zeer effectief is in het sturen van de LLM met VPI. Bijvoorbeeld, door slechts 52 vergiftigde voorbeelden (0,1% van de omvang van de trainingsgegevens) in de instructie-afstemmingsgegevens te injecteren, verandert het percentage negatieve reacties dat het getrainde model geeft op Joe Biden-gerelateerde vragen van 0% naar 40%. We benadrukken dus de noodzaak om de integriteit van de instructie-afstemmingsgegevens te waarborgen, aangezien weinig vergiftigde gegevens stiekeme en aanhoudende schade kunnen veroorzaken aan het ingezette model. We onderzoeken verder de mogelijke verdedigingen en identificeren gegevensfiltering als een effectieve manier om zich te verdedigen tegen de vergiftigingsaanvallen. Onze projectpagina is beschikbaar op https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.