Uma Defesa Embaraçosamente Simples Contra Ataques de Obliteração em LLMs
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
May 25, 2025
Autores: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) são tipicamente alinhados para cumprir diretrizes de segurança, recusando instruções prejudiciais. Um ataque recente, denominado abliteração, isola e suprime a única direção latente mais responsável pelo comportamento de recusa, permitindo que o modelo gere conteúdo antiético. Propomos uma defesa que modifica a forma como os modelos geram recusas. Construímos um conjunto de dados de recusa estendida que contém prompts prejudiciais com uma resposta completa que justifica o motivo da recusa. Em seguida, ajustamos finamente os modelos Llama-2-7B-Chat e Qwen2.5-Instruct (com 1,5B e 3B parâmetros) em nosso conjunto de dados de recusa estendida e avaliamos os sistemas resultantes em um conjunto de prompts prejudiciais. Em nossos experimentos, os modelos de recusa estendida mantêm altas taxas de recusa, caindo no máximo em 10%, enquanto as taxas de recusa dos modelos de linha de base caem em 70-80% após a abliteração. Uma avaliação ampla de segurança e utilidade mostra que o ajuste fino de recusa estendida neutraliza o ataque de abliteração enquanto preserva o desempenho geral.
English
Large language models (LLMs) are typically aligned to comply with safety
guidelines by refusing harmful instructions. A recent attack, termed
abliteration, isolates and suppresses the single latent direction most
responsible for refusal behavior, enabling the model to generate unethical
content. We propose a defense that modifies how models generate refusals. We
construct an extended-refusal dataset that contains harmful prompts with a full
response that justifies the reason for refusal. We then fine-tune
Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our
extended-refusal dataset, and evaluate the resulting systems on a set of
harmful prompts. In our experiments, extended-refusal models maintain high
refusal rates, dropping at most by 10%, whereas baseline models' refusal rates
drop by 70-80% after abliteration. A broad evaluation of safety and utility
shows that extended-refusal fine-tuning neutralizes the abliteration attack
while preserving general performance.