Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions

Résumé

Nous présentons l'Injection Virtuelle de Prompt (Virtual Prompt Injection, VPI) pour les modèles de langage de grande taille (Large Language Models, LLMs) ajustés par instruction. La VPI permet à un prompt virtuel spécifié par un attaquant d'orienter le comportement du modèle dans des scénarios déclencheurs spécifiques, sans aucune injection explicite dans l'entrée du modèle. Par exemple, si un LLM est compromis avec le prompt virtuel "Décrivez Joe Biden de manière négative." pour les instructions liées à Joe Biden, alors tout service déployant ce modèle propagera des points de vue biaisés lors du traitement des requêtes des utilisateurs concernant Joe Biden. La VPI est particulièrement nuisible pour deux raisons principales. Premièrement, l'attaquant peut exercer un contrôle granulaire sur les comportements des LLMs en définissant divers prompts virtuels, exploitant ainsi la capacité des LLMs à suivre des instructions. Deuxièmement, ce contrôle est réalisé sans aucune interaction de l'attaquant pendant que le modèle est en service, ce qui conduit à une attaque persistante. Pour démontrer la menace, nous proposons une méthode simple pour réaliser la VPI en empoisonnant les données d'ajustement par instruction du modèle. Nous constatons que notre méthode proposée est très efficace pour orienter le LLM avec la VPI. Par exemple, en injectant seulement 52 exemples empoisonnés (0,1 % de la taille des données d'entraînement) dans les données d'ajustement par instruction, le pourcentage de réponses négatives données par le modèle entraîné sur les requêtes liées à Joe Biden passe de 0 % à 40 %. Nous soulignons donc la nécessité de garantir l'intégrité des données d'ajustement par instruction, car une petite quantité de données empoisonnées peut causer un préjudice furtif et persistant au modèle déployé. Nous explorons également les défenses possibles et identifions le filtrage des données comme un moyen efficace de se protéger contre les attaques par empoisonnement. Notre page de projet est disponible à l'adresse https://poison-llm.github.io.

English

We present Virtual Prompt Injection (VPI) for instruction-tuned Large Language Models (LLMs). VPI allows an attacker-specified virtual prompt to steer the model behavior under specific trigger scenario without any explicit injection in model input. For instance, if an LLM is compromised with the virtual prompt "Describe Joe Biden negatively." for Joe Biden-related instructions, then any service deploying this model will propagate biased views when handling user queries related to Joe Biden. VPI is especially harmful for two primary reasons. Firstly, the attacker can take fine-grained control over LLM behaviors by defining various virtual prompts, exploiting LLMs' proficiency in following instructions. Secondly, this control is achieved without any interaction from the attacker while the model is in service, leading to persistent attack. To demonstrate the threat, we propose a simple method for performing VPI by poisoning the model's instruction tuning data. We find that our proposed method is highly effective in steering the LLM with VPI. For example, by injecting only 52 poisoned examples (0.1% of the training data size) into the instruction tuning data, the percentage of negative responses given by the trained model on Joe Biden-related queries change from 0% to 40%. We thus highlight the necessity of ensuring the integrity of the instruction-tuning data as little poisoned data can cause stealthy and persistent harm to the deployed model. We further explore the possible defenses and identify data filtering as an effective way to defend against the poisoning attacks. Our project page is available at https://poison-llm.github.io.

Injection de prompts virtuels pour les grands modèles de langage ajustés par instructions

Virtual Prompt Injection for Instruction-Tuned Large Language Models

Résumé

Support