Désapprentissage sécurisé : une solution étonnamment efficace et généralisable pour se protéger contre les attaques de jailbreak
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks
July 3, 2024
Auteurs: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang
cs.AI
Résumé
Les LLM sont connus pour être vulnérables aux attaques de jailbreak, même après un alignement de sécurité. Une observation importante est que, bien que différents types d'attaques de jailbreak puissent générer des requêtes significativement différentes, elles aboutissent principalement à des réponses similaires qui sont ancrées dans les mêmes connaissances nuisibles (par exemple, des étapes détaillées pour fabriquer une bombe). Par conséquent, nous conjecturons que le désapprentissage direct des connaissances nuisibles dans le LLM peut être une méthode plus efficace pour se défendre contre les attaques de jailbreak que les approches principales basées sur le fine-tuning supervisé (SFT). Nos expériences approfondies ont confirmé notre intuition et suggèrent une généralisabilité surprenante de notre approche basée sur le désapprentissage : en utilisant seulement 20 questions nuisibles brutes sans aucun prompt de jailbreak pendant l'entraînement, notre solution a réduit le taux de réussite des attaques (ASR) dans Vicuna-7B sur des questions nuisibles hors distribution (OOD) enveloppées de divers prompts de jailbreak complexes de 82,6 % à 7,7 %. Cela surpasse significativement Llama2-7B-Chat, qui est fine-tuné sur environ 0,1 million d'échantillons d'alignement de sécurité mais présente toujours un ASR de 21,9 % même avec l'aide d'un prompt de système de sécurité supplémentaire. Une analyse plus approfondie révèle que la capacité de généralisation de notre solution découle de la relation intrinsèque entre les réponses nuisibles à travers les questions nuisibles (par exemple, les modèles de réponse, les étapes et actions partagées, et la similarité entre leurs représentations apprises dans le LLM). Notre code est disponible à l'adresse https://github.com/thu-coai/SafeUnlearning.
English
LLMs are known to be vulnerable to jailbreak attacks, even after safety
alignment. An important observation is that, while different types of jailbreak
attacks can generate significantly different queries, they mostly result in
similar responses that are rooted in the same harmful knowledge (e.g., detailed
steps to make a bomb). Therefore, we conjecture that directly unlearn the
harmful knowledge in the LLM can be a more effective way to defend against
jailbreak attacks than the mainstream supervised fine-tuning (SFT) based
approaches. Our extensive experiments confirmed our insight and suggested
surprising generalizability of our unlearning-based approach: using only 20 raw
harmful questions without any jailbreak prompt during training, our
solution reduced the Attack Success Rate (ASR) in Vicuna-7B on
out-of-distribution (OOD) harmful questions wrapped with various complex
jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms
Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but
still has an ASR of 21.9\% even under the help of an additional safety system
prompt. Further analysis reveals that the generalization ability of our
solution stems from the intrinsic relatedness among harmful responses across
harmful questions (e.g., response patterns, shared steps and actions, and
similarity among their learned representations in the LLM). Our code is
available at https://github.com/thu-coai/SafeUnlearning.Summary
AI-Generated Summary