Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions
Virtual Prompt Injection for Instruction-Tuned Large Language Models
July 31, 2023
Auteurs: Jun Yan, Vikas Yadav, Shiyang Li, Lichang Chen, Zheng Tang, Hai Wang, Vijay Srinivasan, Xiang Ren, Hongxia Jin
cs.AI
Résumé
Nous présentons l'Injection Virtuelle de Prompt (Virtual Prompt Injection, VPI) pour les modèles de langage de grande taille (Large Language Models, LLMs) ajustés par instruction. La VPI permet à un prompt virtuel spécifié par un attaquant d'orienter le comportement du modèle dans des scénarios déclencheurs spécifiques, sans aucune injection explicite dans l'entrée du modèle. Par exemple, si un LLM est compromis avec le prompt virtuel "Décrivez Joe Biden de manière négative." pour les instructions liées à Joe Biden, alors tout service déployant ce modèle propagera des points de vue biaisés lors du traitement des requêtes des utilisateurs concernant Joe Biden. La VPI est particulièrement nuisible pour deux raisons principales. Premièrement, l'attaquant peut exercer un contrôle granulaire sur les comportements des LLMs en définissant divers prompts virtuels, exploitant ainsi la capacité des LLMs à suivre des instructions. Deuxièmement, ce contrôle est réalisé sans aucune interaction de l'attaquant pendant que le modèle est en service, ce qui conduit à une attaque persistante. Pour démontrer la menace, nous proposons une méthode simple pour réaliser la VPI en empoisonnant les données d'ajustement par instruction du modèle. Nous constatons que notre méthode proposée est très efficace pour orienter le LLM avec la VPI. Par exemple, en injectant seulement 52 exemples empoisonnés (0,1 % de la taille des données d'entraînement) dans les données d'ajustement par instruction, le pourcentage de réponses négatives données par le modèle entraîné sur les requêtes liées à Joe Biden passe de 0 % à 40 %. Nous soulignons donc la nécessité de garantir l'intégrité des données d'ajustement par instruction, car une petite quantité de données empoisonnées peut causer un préjudice furtif et persistant au modèle déployé. Nous explorons également les défenses possibles et identifions le filtrage des données comme un moyen efficace de se protéger contre les attaques par empoisonnement. Notre page de projet est disponible à l'adresse https://poison-llm.github.io.
English
We present Virtual Prompt Injection (VPI) for instruction-tuned Large
Language Models (LLMs). VPI allows an attacker-specified virtual prompt to
steer the model behavior under specific trigger scenario without any explicit
injection in model input. For instance, if an LLM is compromised with the
virtual prompt "Describe Joe Biden negatively." for Joe Biden-related
instructions, then any service deploying this model will propagate biased views
when handling user queries related to Joe Biden. VPI is especially harmful for
two primary reasons. Firstly, the attacker can take fine-grained control over
LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency
in following instructions. Secondly, this control is achieved without any
interaction from the attacker while the model is in service, leading to
persistent attack. To demonstrate the threat, we propose a simple method for
performing VPI by poisoning the model's instruction tuning data. We find that
our proposed method is highly effective in steering the LLM with VPI. For
example, by injecting only 52 poisoned examples (0.1% of the training data
size) into the instruction tuning data, the percentage of negative responses
given by the trained model on Joe Biden-related queries change from 0% to 40%.
We thus highlight the necessity of ensuring the integrity of the
instruction-tuning data as little poisoned data can cause stealthy and
persistent harm to the deployed model. We further explore the possible defenses
and identify data filtering as an effective way to defend against the poisoning
attacks. Our project page is available at https://poison-llm.github.io.