Soyez gentil, réécrivez : les projections bénignes via la réécriture défendent contre les attaques d'empoisonnement de données des LLM

Résumé

Les grands modèles de langage (LLM) sont très vulnérables aux attaques par porte dérobée (BA), dans lesquelles des échantillons d’apprentissage sont empoisonnés à l’aide de contenu nuisible basé sur des déclencheurs. De plus, les défenses existantes se sont révélées inefficaces lorsqu’elles sont testées de manière approfondie sur différents schémas de BA. Pour mieux lutter contre les BA, nous explorons l’utilisation de la réécriture par LLM comme défense proactive contre l’empoisonnement des données. Premièrement, nous montrons théoriquement que lorsque la réécriture par LLM utilise des échantillons bénins à livre ouvert – ce que nous appelons la réécriture bénigne à livre ouvert (OBBR) – la probabilité qu’une sortie réécrite soit bénigne est strictement supérieure à celle de la réécriture à livre fermé. Ainsi, l’OBBR neutralise le contenu nuisible en projetant les échantillons d’apprentissage dans l’espace des invites bénignes. Nous montrons ensuite que, contrairement aux défenses précédentes, l’OBBR atténue efficacement un grand nombre de BA existantes : sur cinq BA connues et quatre LLM largement utilisés, l’OBBR augmente les performances de sécurité de 51 % en moyenne par rapport aux défenses BA de pointe, et de 25,7 % par rapport aux méthodes de réécriture à livre fermé. Enfin, nous montrons que l’OBBR est efficace en termes de calcul par rapport aux autres défenses BA, ne dégrade pas les performances du modèle sur les tâches de langage naturel après un réglage fin, et est capable de se défendre contre les attaques par empoisonnement de données sans déclencheur.

English

Large language models (LLMs) are highly susceptible to backdoor attacks (BAs), wherein training samples are poisoned using trigger-based harmful content. Furthermore, existing defenses have proven ineffective when extensively tested across BA patterns. To better combat BAs, we explore the use of LLM rewriting as a proactive defense against data poisoning. First, we theoretically show that when LLM rewriting utilizes open-book benign samples--termed open-book benign rewriting (OBBR)--the probability of a rewritten output being benign is strictly greater than that of closed-book rewriting. Thus, OBBR neutralizes harmful content by projecting training samples to the space of benign prompts. We then show that, in contrast to previous defenses, OBBR effectively mitigates a large number of existing BAs: across five known BAs and four widely used LLMs, OBBR increases safety performance by an average 51% compared to state-of-the-art BA defenses and 25.7% compared to closed-book rewriting methods. Finally, we show that OBBR is computationally efficient relative to other BA defenses, does not degrade model performance on natural language tasks after fine-tuning, and is capable of defending against non-trigger based data poisoning attacks.