Una Defensa Sorprendentemente Simple Contra los Ataques de Obliteración en LLM
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
May 25, 2025
Autores: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen estar alineados para cumplir con directrices de seguridad al rechazar instrucciones dañinas. Un ataque reciente, denominado abliteración, aísla y suprime la única dirección latente más responsable del comportamiento de rechazo, permitiendo que el modelo genere contenido no ético. Proponemos una defensa que modifica cómo los modelos generan rechazos. Construimos un conjunto de datos de rechazo extendido que contiene indicaciones dañinas con una respuesta completa que justifica la razón del rechazo. Luego, ajustamos mediante fine-tuning los modelos Llama-2-7B-Chat y Qwen2.5-Instruct (con 1.5B y 3B parámetros) en nuestro conjunto de datos de rechazo extendido, y evaluamos los sistemas resultantes en un conjunto de indicaciones dañinas. En nuestros experimentos, los modelos con rechazo extendido mantienen altas tasas de rechazo, disminuyendo como máximo en un 10%, mientras que las tasas de rechazo de los modelos base caen entre un 70-80% después de la abliteración. Una evaluación amplia de seguridad y utilidad muestra que el fine-tuning de rechazo extendido neutraliza el ataque de abliteración mientras preserva el rendimiento general.
English
Large language models (LLMs) are typically aligned to comply with safety
guidelines by refusing harmful instructions. A recent attack, termed
abliteration, isolates and suppresses the single latent direction most
responsible for refusal behavior, enabling the model to generate unethical
content. We propose a defense that modifies how models generate refusals. We
construct an extended-refusal dataset that contains harmful prompts with a full
response that justifies the reason for refusal. We then fine-tune
Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our
extended-refusal dataset, and evaluate the resulting systems on a set of
harmful prompts. In our experiments, extended-refusal models maintain high
refusal rates, dropping at most by 10%, whereas baseline models' refusal rates
drop by 70-80% after abliteration. A broad evaluation of safety and utility
shows that extended-refusal fine-tuning neutralizes the abliteration attack
while preserving general performance.Summary
AI-Generated Summary