Uma Defesa Embaraçosamente Simples Contra Ataques de Obliteração em LLMs

Resumo

Modelos de linguagem de grande escala (LLMs) são tipicamente alinhados para cumprir diretrizes de segurança, recusando instruções prejudiciais. Um ataque recente, denominado abliteração, isola e suprime a única direção latente mais responsável pelo comportamento de recusa, permitindo que o modelo gere conteúdo antiético. Propomos uma defesa que modifica a forma como os modelos geram recusas. Construímos um conjunto de dados de recusa estendida que contém prompts prejudiciais com uma resposta completa que justifica o motivo da recusa. Em seguida, ajustamos finamente os modelos Llama-2-7B-Chat e Qwen2.5-Instruct (com 1,5B e 3B parâmetros) em nosso conjunto de dados de recusa estendida e avaliamos os sistemas resultantes em um conjunto de prompts prejudiciais. Em nossos experimentos, os modelos de recusa estendida mantêm altas taxas de recusa, caindo no máximo em 10%, enquanto as taxas de recusa dos modelos de linha de base caem em 70-80% após a abliteração. Uma avaliação ampla de segurança e utilidade mostra que o ajuste fino de recusa estendida neutraliza o ataque de abliteração enquanto preserva o desempenho geral.

English

Large language models (LLMs) are typically aligned to comply with safety guidelines by refusing harmful instructions. A recent attack, termed abliteration, isolates and suppresses the single latent direction most responsible for refusal behavior, enabling the model to generate unethical content. We propose a defense that modifies how models generate refusals. We construct an extended-refusal dataset that contains harmful prompts with a full response that justifies the reason for refusal. We then fine-tune Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our extended-refusal dataset, and evaluate the resulting systems on a set of harmful prompts. In our experiments, extended-refusal models maintain high refusal rates, dropping at most by 10%, whereas baseline models' refusal rates drop by 70-80% after abliteration. A broad evaluation of safety and utility shows that extended-refusal fine-tuning neutralizes the abliteration attack while preserving general performance.

Uma Defesa Embaraçosamente Simples Contra Ataques de Obliteração em LLMs

An Embarrassingly Simple Defense Against LLM Abliteration Attacks

Resumo

Support