Virtuele Prompt Injectie voor Instructie-afgestemde Grote Taalmodellen

Samenvatting

We presenteren Virtual Prompt Injection (VPI) voor instructie-afgestemde Large Language Models (LLMs). VPI maakt het mogelijk dat een door een aanvaller gespecificeerde virtuele prompt het modelgedrag stuurt onder specifieke triggerscenario's zonder expliciete injectie in de modelinput. Bijvoorbeeld, als een LLM is gecompromitteerd met de virtuele prompt "Beschrijf Joe Biden negatief." voor Joe Biden-gerelateerde instructies, dan zal elke dienst die dit model gebruikt, bevooroordeelde standpunten verspreiden bij het verwerken van gebruikersvragen over Joe Biden. VPI is vooral schadelijk om twee primaire redenen. Ten eerste kan de aanvaller fijnmazige controle uitoefenen over het gedrag van LLM's door verschillende virtuele prompts te definiëren, waarbij wordt geprofiteerd van de vaardigheid van LLM's om instructies op te volgen. Ten tweede wordt deze controle bereikt zonder enige interactie van de aanvaller terwijl het model in gebruik is, wat leidt tot een aanhoudende aanval. Om de dreiging aan te tonen, stellen we een eenvoudige methode voor om VPI uit te voeren door de instructie-afstemmingsgegevens van het model te vergiftigen. We ontdekken dat onze voorgestelde methode zeer effectief is in het sturen van de LLM met VPI. Bijvoorbeeld, door slechts 52 vergiftigde voorbeelden (0,1% van de omvang van de trainingsgegevens) in de instructie-afstemmingsgegevens te injecteren, verandert het percentage negatieve reacties dat het getrainde model geeft op Joe Biden-gerelateerde vragen van 0% naar 40%. We benadrukken dus de noodzaak om de integriteit van de instructie-afstemmingsgegevens te waarborgen, aangezien weinig vergiftigde gegevens stiekeme en aanhoudende schade kunnen veroorzaken aan het ingezette model. We onderzoeken verder de mogelijke verdedigingen en identificeren gegevensfiltering als een effectieve manier om zich te verdedigen tegen de vergiftigingsaanvallen. Onze projectpagina is beschikbaar op https://poison-llm.github.io.

English

We present Virtual Prompt Injection (VPI) for instruction-tuned Large Language Models (LLMs). VPI allows an attacker-specified virtual prompt to steer the model behavior under specific trigger scenario without any explicit injection in model input. For instance, if an LLM is compromised with the virtual prompt "Describe Joe Biden negatively." for Joe Biden-related instructions, then any service deploying this model will propagate biased views when handling user queries related to Joe Biden. VPI is especially harmful for two primary reasons. Firstly, the attacker can take fine-grained control over LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency in following instructions. Secondly, this control is achieved without any interaction from the attacker while the model is in service, leading to persistent attack. To demonstrate the threat, we propose a simple method for performing VPI by poisoning the model's instruction tuning data. We find that our proposed method is highly effective in steering the LLM with VPI. For example, by injecting only 52 poisoned examples (0.1% of the training data size) into the instruction tuning data, the percentage of negative responses given by the trained model on Joe Biden-related queries change from 0% to 40%. We thus highlight the necessity of ensuring the integrity of the instruction-tuning data as little poisoned data can cause stealthy and persistent harm to the deployed model. We further explore the possible defenses and identify data filtering as an effective way to defend against the poisoning attacks. Our project page is available at https://poison-llm.github.io.

Virtuele Prompt Injectie voor Instructie-afgestemde Grote Taalmodellen

Virtual Prompt Injection for Instruction-Tuned Large Language Models

Samenvatting

Support