Iniezione Virtuale di Prompt per Modelli Linguistici di Grande Dimensione Ottimizzati per Istruzioni
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Autori: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Abstract
Presentiamo l'Iniezione Virtuale di Prompt (Virtual Prompt Injection, VPI) per i Modelli Linguistici di Grande Dimensione (Large Language Models, LLMs) ottimizzati per seguire istruzioni. La VPI consente a un prompt virtuale specificato da un attaccante di orientare il comportamento del modello in scenari di trigger specifici senza alcuna iniezione esplicita nell'input del modello. Ad esempio, se un LLM viene compromesso con il prompt virtuale "Descrivi Joe Biden in modo negativo" per istruzioni relative a Joe Biden, qualsiasi servizio che utilizza questo modello propagherà visioni distorte quando gestisce query degli utenti relative a Joe Biden. La VPI è particolarmente dannosa per due ragioni principali. In primo luogo, l'attaccante può ottenere un controllo granulare sui comportamenti degli LLM definendo vari prompt virtuali, sfruttando la capacità degli LLM di seguire le istruzioni. In secondo luogo, questo controllo viene raggiunto senza alcuna interazione da parte dell'attaccante mentre il modello è in servizio, portando a un attacco persistente. Per dimostrare la minaccia, proponiamo un metodo semplice per eseguire la VPI avvelenando i dati di ottimizzazione delle istruzioni del modello. Troviamo che il nostro metodo proposto è altamente efficace nell'orientare l'LLM con la VPI. Ad esempio, iniettando solo 52 esempi avvelenati (lo 0,1% della dimensione dei dati di addestramento) nei dati di ottimizzazione delle istruzioni, la percentuale di risposte negative fornite dal modello addestrato su query relative a Joe Biden passa dallo 0% al 40%. Sottolineiamo quindi la necessità di garantire l'integrità dei dati di ottimizzazione delle istruzioni, poiché una piccola quantità di dati avvelenati può causare danni subdoli e persistenti al modello distribuito. Esploriamo ulteriormente le possibili difese e identifichiamo il filtraggio dei dati come un modo efficace per difendersi dagli attacchi di avvelenamento. La nostra pagina del progetto è disponibile all'indirizzo https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.