ChatPaper.aiChatPaper

Desaprendizagem Segura: Uma Solução Surpreendentemente Eficaz e Generalizável para Defesa Contra Ataques de Jailbreak

Safe Unlearning: A Surprisingly Effective and Generalizable Solution to Defend Against Jailbreak Attacks

July 3, 2024
Autores: Zhexin Zhang, Junxiao Yang, Pei Ke, Shiyao Cui, Chujie Zheng, Hongning Wang, Minlie Huang
cs.AI

Resumo

LLMs são conhecidos por serem vulneráveis a ataques de jailbreak, mesmo após alinhamento de segurança. Uma observação importante é que, embora diferentes tipos de ataques de jailbreak possam gerar consultas significativamente diferentes, geralmente resultam em respostas semelhantes enraizadas no mesmo conhecimento prejudicial (por exemplo, passos detalhados para fazer uma bomba). Portanto, conjecturamos que desaprender diretamente o conhecimento prejudicial no LLM pode ser uma maneira mais eficaz de se defender contra ataques de jailbreak do que abordagens baseadas em ajuste fino supervisionado (SFT) convencionais. Nossos experimentos extensivos confirmaram nossa percepção e sugeriram uma surpreendente generalizabilidade de nossa abordagem de desaprendizagem: usando apenas 20 perguntas prejudiciais sem nenhum prompt de jailbreak durante o treinamento, nossa solução reduziu a Taxa de Sucesso do Ataque (ASR) no Vicuna-7B em perguntas prejudiciais fora da distribuição (OOD) envoltas em vários prompts complexos de jailbreak de 82,6% para 7,7%. Isso supera significativamente o Llama2-7B-Chat, que é ajustado fino em cerca de 0,1M de amostras de alinhamento de segurança, mas ainda tem uma ASR de 21,9% mesmo com a ajuda de um prompt adicional do sistema de segurança. Uma análise adicional revela que a capacidade de generalização de nossa solução advém da relação intrínseca entre respostas prejudiciais em perguntas prejudiciais (por exemplo, padrões de resposta, passos e ações compartilhados, e similaridade entre suas representações aprendidas no LLM). Nosso código está disponível em https://github.com/thu-coai/SafeUnlearning.
English
LLMs are known to be vulnerable to jailbreak attacks, even after safety alignment. An important observation is that, while different types of jailbreak attacks can generate significantly different queries, they mostly result in similar responses that are rooted in the same harmful knowledge (e.g., detailed steps to make a bomb). Therefore, we conjecture that directly unlearn the harmful knowledge in the LLM can be a more effective way to defend against jailbreak attacks than the mainstream supervised fine-tuning (SFT) based approaches. Our extensive experiments confirmed our insight and suggested surprising generalizability of our unlearning-based approach: using only 20 raw harmful questions without any jailbreak prompt during training, our solution reduced the Attack Success Rate (ASR) in Vicuna-7B on out-of-distribution (OOD) harmful questions wrapped with various complex jailbreak prompts from 82.6\% to 7.7\%. This significantly outperforms Llama2-7B-Chat, which is fine-tuned on about 0.1M safety alignment samples but still has an ASR of 21.9\% even under the help of an additional safety system prompt. Further analysis reveals that the generalization ability of our solution stems from the intrinsic relatedness among harmful responses across harmful questions (e.g., response patterns, shared steps and actions, and similarity among their learned representations in the LLM). Our code is available at https://github.com/thu-coai/SafeUnlearning.
PDF131November 28, 2024