ChatPaper.aiChatPaper

Désapprentissage sécurisé : une solution étonnamment efficace et généralisable pour se protéger contre les attaques de jailbreak

Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks

July 3, 2024
Auteurs: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang
cs.AI

Résumé

Les LLM sont connus pour être vulnérables aux attaques de jailbreak, même après un alignement de sécurité. Une observation importante est que, bien que différents types d'attaques de jailbreak puissent générer des requêtes significativement différentes, elles aboutissent principalement à des réponses similaires qui sont ancrées dans les mêmes connaissances nuisibles (par exemple, des étapes détaillées pour fabriquer une bombe). Par conséquent, nous conjecturons que le désapprentissage direct des connaissances nuisibles dans le LLM peut être une méthode plus efficace pour se défendre contre les attaques de jailbreak que les approches principales basées sur le fine-tuning supervisé (SFT). Nos expériences approfondies ont confirmé notre intuition et suggèrent une généralisabilité surprenante de notre approche basée sur le désapprentissage : en utilisant seulement 20 questions nuisibles brutes sans aucun prompt de jailbreak pendant l'entraînement, notre solution a réduit le taux de réussite des attaques (ASR) dans Vicuna-7B sur des questions nuisibles hors distribution (OOD) enveloppées de divers prompts de jailbreak complexes de 82,6 % à 7,7 %. Cela surpasse significativement Llama2-7B-Chat, qui est fine-tuné sur environ 0,1 million d'échantillons d'alignement de sécurité mais présente toujours un ASR de 21,9 % même avec l'aide d'un prompt de système de sécurité supplémentaire. Une analyse plus approfondie révèle que la capacité de généralisation de notre solution découle de la relation intrinsèque entre les réponses nuisibles à travers les questions nuisibles (par exemple, les modèles de réponse, les étapes et actions partagées, et la similarité entre leurs représentations apprises dans le LLM). Notre code est disponible à l'adresse https://github.com/thu-coai/SafeUnlearning.
English
LLMs are known to be vulnerable to jailbreak attacks, even after safety alignment. An important observation is that, while different types of jailbreak attacks can generate significantly different queries, they mostly result in similar responses that are rooted in the same harmful knowledge (e.g., detailed steps to make a bomb). Therefore, we conjecture that directly unlearn the harmful knowledge in the LLM can be a more effective way to defend against jailbreak attacks than the mainstream supervised fine-tuning (SFT) based approaches. Our extensive experiments confirmed our insight and suggested surprising generalizability of our unlearning-based approach: using only 20 raw harmful questions without any jailbreak prompt during training, our solution reduced the Attack Success Rate (ASR) in Vicuna-7B on out-of-distribution (OOD) harmful questions wrapped with various complex jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but still has an ASR of 21.9\% even under the help of an additional safety system prompt. Further analysis reveals that the generalization ability of our solution stems from the intrinsic relatedness among harmful responses across harmful questions (e.g., response patterns, shared steps and actions, and similarity among their learned representations in the LLM). Our code is available at https://github.com/thu-coai/SafeUnlearning.

Summary

AI-Generated Summary

PDF131November 28, 2024