Rechazar cuando te sientas inseguro: Mejorando la seguridad en LLMs a través del Entrenamiento de Rechazo Desacoplado
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
July 12, 2024
Autores: Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu
cs.AI
Resumen
Este estudio aborda una brecha crítica en las prácticas de ajuste de seguridad para Modelos de Lenguaje Grandes (LLMs) al identificar y abordar un sesgo de posición de rechazo dentro de los datos de ajuste de seguridad, que compromete la capacidad de los modelos para rechazar adecuadamente la generación de contenido inseguro. Presentamos un enfoque novedoso, Entrenamiento de Rechazo Desacoplado (DeRTa), diseñado para capacitar a los LLMs a rechazar el cumplimiento de indicaciones dañinas en cualquier posición de respuesta, mejorando significativamente sus capacidades de seguridad. DeRTa incorpora dos componentes novedosos: (1) Estimación de Máxima Verosimilitud (MLE) con Prefijo de Respuesta Dañina, que entrena a los modelos para reconocer y evitar contenido inseguro al agregar un segmento de respuesta dañina al principio de una respuesta segura, y (2) Optimización de Transición Reforzada (RTO), que dota a los modelos con la capacidad de transicionar de un posible daño a un rechazo de seguridad de manera consistente a lo largo de la secuencia de respuesta dañina. Nuestra evaluación empírica, realizada utilizando las familias de modelos LLaMA3 y Mistral en seis escenarios de ataque, demuestra que nuestro método no solo mejora la seguridad del modelo sin comprometer el rendimiento, sino que también supera a modelos conocidos como GPT-4 en la defensa contra ataques. Es importante destacar que nuestro enfoque defiende con éxito métodos de ataque avanzados recientes (por ejemplo, CodeAttack) que han vulnerado GPT-4 y LLaMA3-70B-Instruct. Nuestro código y datos se pueden encontrar en https://github.com/RobustNLP/DeRTa.
English
This study addresses a critical gap in safety tuning practices for Large
Language Models (LLMs) by identifying and tackling a refusal position bias
within safety tuning data, which compromises the models' ability to
appropriately refuse generating unsafe content. We introduce a novel approach,
Decoupled Refusal Training (DeRTa), designed to empower LLMs to refuse
compliance to harmful prompts at any response position, significantly enhancing
their safety capabilities. DeRTa incorporates two novel components: (1) Maximum
Likelihood Estimation (MLE) with Harmful Response Prefix, which trains models
to recognize and avoid unsafe content by appending a segment of harmful
response to the beginning of a safe response, and (2) Reinforced Transition
Optimization (RTO), which equips models with the ability to transition from
potential harm to safety refusal consistently throughout the harmful response
sequence. Our empirical evaluation, conducted using LLaMA3 and Mistral model
families across six attack scenarios, demonstrates that our method not only
improves model safety without compromising performance but also surpasses
well-known models such as GPT-4 in defending against attacks. Importantly, our
approach successfully defends recent advanced attack methods (e.g., CodeAttack)
that have jailbroken GPT-4 and LLaMA3-70B-Instruct. Our code and data can be
found at https://github.com/RobustNLP/DeRTa.Summary
AI-Generated Summary