Disapprendimento Sicuro: Una Soluzione Sorprendentemente Efficace e Generalizzabile per Difendersi dagli Attacchi Jailbreak

Abstract

È noto che i LLM siano vulnerabili agli attacchi di jailbreak, anche dopo l'allineamento di sicurezza. Un'osservazione importante è che, sebbene diversi tipi di attacchi di jailbreak possano generare query significativamente diverse, nella maggior parte dei casi producono risposte simili che sono radicate nella stessa conoscenza dannosa (ad esempio, passaggi dettagliati per creare una bomba). Pertanto, ipotizziamo che disimparare direttamente la conoscenza dannosa nel LLM possa essere un modo più efficace per difendersi dagli attacchi di jailbreak rispetto agli approcci mainstream basati sul fine-tuning supervisionato (SFT). I nostri esperimenti estesi hanno confermato la nostra intuizione e suggerito una sorprendente generalizzabilità del nostro approccio basato sul disimparare: utilizzando solo 20 domande dannose grezze senza alcun prompt di jailbreak durante l'addestramento, la nostra soluzione ha ridotto il tasso di successo degli attacchi (ASR) in Vicuna-7B su domande dannose fuori distribuzione (OOD) avvolte con vari prompt di jailbreak complessi dall'82,6% al 7,7%. Questo risultato supera significativamente Llama2-7B-Chat, che è stato sottoposto a fine-tuning su circa 0,1 milioni di campioni di allineamento di sicurezza ma ha comunque un ASR del 21,9% anche con l'aiuto di un ulteriore prompt di sistema di sicurezza. Un'analisi più approfondita rivela che la capacità di generalizzazione della nostra soluzione deriva dalla correlazione intrinseca tra le risposte dannose attraverso diverse domande dannose (ad esempio, modelli di risposta, passaggi e azioni condivisi, e somiglianza tra le loro rappresentazioni apprese nel LLM). Il nostro codice è disponibile all'indirizzo https://github.com/thu-coai/SafeUnlearning.

English

LLMs are known to be vulnerable to jailbreak attacks, even after safety alignment. An important observation is that, while different types of jailbreak attacks can generate significantly different queries, they mostly result in similar responses that are rooted in the same harmful knowledge (e.g., detailed steps to make a bomb). Therefore, we conjecture that directly unlearn the harmful knowledge in the LLM can be a more effective way to defend against jailbreak attacks than the mainstream supervised fine-tuning (SFT) based approaches. Our extensive experiments confirmed our insight and suggested surprising generalizability of our unlearning-based approach: using only 20 raw harmful questions without any jailbreak prompt during training, our solution reduced the Attack Success Rate (ASR) in Vicuna-7B on out-of-distribution (OOD) harmful questions wrapped with various complex jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but still has an ASR of 21.9\% even under the help of an additional safety system prompt. Further analysis reveals that the generalization ability of our solution stems from the intrinsic relatedness among harmful responses across harmful questions (e.g., response patterns, shared steps and actions, and similarity among their learned representations in the LLM). Our code is available at https://github.com/thu-coai/SafeUnlearning.

Disapprendimento Sicuro: Una Soluzione Sorprendentemente Efficace e Generalizzabile per Difendersi dagli Attacchi Jailbreak

Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks

Abstract

Support