Una Defensa Sorprendentemente Simple Contra los Ataques de Obliteración en LLM

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen estar alineados para cumplir con directrices de seguridad al rechazar instrucciones dañinas. Un ataque reciente, denominado abliteración, aísla y suprime la única dirección latente más responsable del comportamiento de rechazo, permitiendo que el modelo genere contenido no ético. Proponemos una defensa que modifica cómo los modelos generan rechazos. Construimos un conjunto de datos de rechazo extendido que contiene indicaciones dañinas con una respuesta completa que justifica la razón del rechazo. Luego, ajustamos mediante fine-tuning los modelos Llama-2-7B-Chat y Qwen2.5-Instruct (con 1.5B y 3B parámetros) en nuestro conjunto de datos de rechazo extendido, y evaluamos los sistemas resultantes en un conjunto de indicaciones dañinas. En nuestros experimentos, los modelos con rechazo extendido mantienen altas tasas de rechazo, disminuyendo como máximo en un 10%, mientras que las tasas de rechazo de los modelos base caen entre un 70-80% después de la abliteración. Una evaluación amplia de seguridad y utilidad muestra que el fine-tuning de rechazo extendido neutraliza el ataque de abliteración mientras preserva el rendimiento general.

English

Large language models (LLMs) are typically aligned to comply with safety guidelines by refusing harmful instructions. A recent attack, termed abliteration, isolates and suppresses the single latent direction most responsible for refusal behavior, enabling the model to generate unethical content. We propose a defense that modifies how models generate refusals. We construct an extended-refusal dataset that contains harmful prompts with a full response that justifies the reason for refusal. We then fine-tune Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our extended-refusal dataset, and evaluate the resulting systems on a set of harmful prompts. In our experiments, extended-refusal models maintain high refusal rates, dropping at most by 10%, whereas baseline models' refusal rates drop by 70-80% after abliteration. A broad evaluation of safety and utility shows that extended-refusal fine-tuning neutralizes the abliteration attack while preserving general performance.

Una Defensa Sorprendentemente Simple Contra los Ataques de Obliteración en LLM

An Embarrassingly Simple Defense Against LLM Abliteration Attacks

Resumen

Support