Disapprendimento Sicuro: Una Soluzione Sorprendentemente Efficace e Generalizzabile per Difendersi dagli Attacchi Jailbreak
Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks
July 3, 2024
Autori: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang
cs.AI
Abstract
È noto che i LLM siano vulnerabili agli attacchi di jailbreak, anche dopo l'allineamento di sicurezza. Un'osservazione importante è che, sebbene diversi tipi di attacchi di jailbreak possano generare query significativamente diverse, nella maggior parte dei casi producono risposte simili che sono radicate nella stessa conoscenza dannosa (ad esempio, passaggi dettagliati per creare una bomba). Pertanto, ipotizziamo che disimparare direttamente la conoscenza dannosa nel LLM possa essere un modo più efficace per difendersi dagli attacchi di jailbreak rispetto agli approcci mainstream basati sul fine-tuning supervisionato (SFT). I nostri esperimenti estesi hanno confermato la nostra intuizione e suggerito una sorprendente generalizzabilità del nostro approccio basato sul disimparare: utilizzando solo 20 domande dannose grezze senza alcun prompt di jailbreak durante l'addestramento, la nostra soluzione ha ridotto il tasso di successo degli attacchi (ASR) in Vicuna-7B su domande dannose fuori distribuzione (OOD) avvolte con vari prompt di jailbreak complessi dall'82,6% al 7,7%. Questo risultato supera significativamente Llama2-7B-Chat, che è stato sottoposto a fine-tuning su circa 0,1 milioni di campioni di allineamento di sicurezza ma ha comunque un ASR del 21,9% anche con l'aiuto di un ulteriore prompt di sistema di sicurezza. Un'analisi più approfondita rivela che la capacità di generalizzazione della nostra soluzione deriva dalla correlazione intrinseca tra le risposte dannose attraverso diverse domande dannose (ad esempio, modelli di risposta, passaggi e azioni condivisi, e somiglianza tra le loro rappresentazioni apprese nel LLM). Il nostro codice è disponibile all'indirizzo https://github.com/thu-coai/SafeUnlearning.
English
LLMs are known to be vulnerable to jailbreak attacks, even after safety
alignment. An important observation is that, while different types of jailbreak
attacks can generate significantly different queries, they mostly result in
similar responses that are rooted in the same harmful knowledge (e.g., detailed
steps to make a bomb). Therefore, we conjecture that directly unlearn the
harmful knowledge in the LLM can be a more effective way to defend against
jailbreak attacks than the mainstream supervised fine-tuning (SFT) based
approaches. Our extensive experiments confirmed our insight and suggested
surprising generalizability of our unlearning-based approach: using only 20 raw
harmful questions without any jailbreak prompt during training, our
solution reduced the Attack Success Rate (ASR) in Vicuna-7B on
out-of-distribution (OOD) harmful questions wrapped with various complex
jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms
Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but
still has an ASR of 21.9\% even under the help of an additional safety system
prompt. Further analysis reveals that the generalization ability of our
solution stems from the intrinsic relatedness among harmful responses across
harmful questions (e.g., response patterns, shared steps and actions, and
similarity among their learned representations in the LLM). Our code is
available at https://github.com/thu-coai/SafeUnlearning.