Recuse-se Sempre que se Sentir Inseguro: Melhorando a Segurança em Modelos de Linguagem com Aprendizado de Recusa Desacoplado
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
July 12, 2024
Autores: Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu
cs.AI
Resumo
Este estudo aborda uma lacuna crítica nas práticas de ajuste de segurança para Modelos de Linguagem de Grande Escala (LLMs) ao identificar e lidar com um viés de recusa dentro dos dados de ajuste de segurança, comprometendo a capacidade dos modelos de recusar adequadamente a geração de conteúdo inseguro. Introduzimos uma abordagem inovadora, Treinamento de Recusa Desacoplado (DeRTa), projetada para capacitar os LLMs a recusar conformidade com prompts prejudiciais em qualquer posição de resposta, melhorando significativamente suas capacidades de segurança. DeRTa incorpora dois componentes inovadores: (1) Estimação de Máxima Verossimilhança (MLE) com Prefixo de Resposta Prejudicial, que treina os modelos para reconhecer e evitar conteúdo inseguro anexando um segmento de resposta prejudicial ao início de uma resposta segura, e (2) Otimização de Transição Reforçada (RTO), que capacita os modelos com a habilidade de transitar de potencial dano para recusa de segurança de forma consistente ao longo da sequência de resposta prejudicial. Nossa avaliação empírica, realizada usando as famílias de modelos LLaMA3 e Mistral em seis cenários de ataque, demonstra que nosso método não apenas melhora a segurança do modelo sem comprometer o desempenho, mas também supera modelos conhecidos como o GPT-4 na defesa contra ataques. Importante ressaltar que nossa abordagem defende com sucesso métodos de ataque avançados recentes (por exemplo, CodeAttack) que conseguiram burlar o GPT-4 e o LLaMA3-70B-Instruct. Nosso código e dados podem ser encontrados em https://github.com/RobustNLP/DeRTa.
English
This study addresses a critical gap in safety tuning practices for Large
Language Models (LLMs) by identifying and tackling a refusal position bias
within safety tuning data, which compromises the models' ability to
appropriately refuse generating unsafe content. We introduce a novel approach,
Decoupled Refusal Training (DeRTa), designed to empower LLMs to refuse
compliance to harmful prompts at any response position, significantly enhancing
their safety capabilities. DeRTa incorporates two novel components: (1) Maximum
Likelihood Estimation (MLE) with Harmful Response Prefix, which trains models
to recognize and avoid unsafe content by appending a segment of harmful
response to the beginning of a safe response, and (2) Reinforced Transition
Optimization (RTO), which equips models with the ability to transition from
potential harm to safety refusal consistently throughout the harmful response
sequence. Our empirical evaluation, conducted using LLaMA3 and Mistral model
families across six attack scenarios, demonstrates that our method not only
improves model safety without compromising performance but also surpasses
well-known models such as GPT-4 in defending against attacks. Importantly, our
approach successfully defends recent advanced attack methods (e.g., CodeAttack)
that have jailbroken GPT-4 and LLaMA3-70B-Instruct. Our code and data can be
found at https://github.com/RobustNLP/DeRTa.