Rechazar cuando te sientas inseguro: Mejorando la seguridad en LLMs a través del Entrenamiento de Rechazo Desacoplado

Resumen

Este estudio aborda una brecha crítica en las prácticas de ajuste de seguridad para Modelos de Lenguaje Grandes (LLMs) al identificar y abordar un sesgo de posición de rechazo dentro de los datos de ajuste de seguridad, que compromete la capacidad de los modelos para rechazar adecuadamente la generación de contenido inseguro. Presentamos un enfoque novedoso, Entrenamiento de Rechazo Desacoplado (DeRTa), diseñado para capacitar a los LLMs a rechazar el cumplimiento de indicaciones dañinas en cualquier posición de respuesta, mejorando significativamente sus capacidades de seguridad. DeRTa incorpora dos componentes novedosos: (1) Estimación de Máxima Verosimilitud (MLE) con Prefijo de Respuesta Dañina, que entrena a los modelos para reconocer y evitar contenido inseguro al agregar un segmento de respuesta dañina al principio de una respuesta segura, y (2) Optimización de Transición Reforzada (RTO), que dota a los modelos con la capacidad de transicionar de un posible daño a un rechazo de seguridad de manera consistente a lo largo de la secuencia de respuesta dañina. Nuestra evaluación empírica, realizada utilizando las familias de modelos LLaMA3 y Mistral en seis escenarios de ataque, demuestra que nuestro método no solo mejora la seguridad del modelo sin comprometer el rendimiento, sino que también supera a modelos conocidos como GPT-4 en la defensa contra ataques. Es importante destacar que nuestro enfoque defiende con éxito métodos de ataque avanzados recientes (por ejemplo, CodeAttack) que han vulnerado GPT-4 y LLaMA3-70B-Instruct. Nuestro código y datos se pueden encontrar en https://github.com/RobustNLP/DeRTa.

English

This study addresses a critical gap in safety tuning practices for Large Language Models (LLMs) by identifying and tackling a refusal position bias within safety tuning data, which compromises the models' ability to appropriately refuse generating unsafe content. We introduce a novel approach, Decoupled Refusal Training (DeRTa), designed to empower LLMs to refuse compliance to harmful prompts at any response position, significantly enhancing their safety capabilities. DeRTa incorporates two novel components: (1) Maximum Likelihood Estimation (MLE) with Harmful Response Prefix, which trains models to recognize and avoid unsafe content by appending a segment of harmful response to the beginning of a safe response, and (2) Reinforced Transition Optimization (RTO), which equips models with the ability to transition from potential harm to safety refusal consistently throughout the harmful response sequence. Our empirical evaluation, conducted using LLaMA3 and Mistral model families across six attack scenarios, demonstrates that our method not only improves model safety without compromising performance but also surpasses well-known models such as GPT-4 in defending against attacks. Importantly, our approach successfully defends recent advanced attack methods (e.g., CodeAttack) that have jailbroken GPT-4 and LLaMA3-70B-Instruct. Our code and data can be found at https://github.com/RobustNLP/DeRTa.

Rechazar cuando te sientas inseguro: Mejorando la seguridad en LLMs a través del Entrenamiento de Rechazo Desacoplado

Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Resumen

Support