Una Difesa Sorprendentemente Semplice Contro gli Attacchi di Obliterazione degli LLM
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
May 25, 2025
Autori: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono tipicamente allineati per conformarsi alle linee guida di sicurezza rifiutando istruzioni dannose. Un recente attacco, denominato abliterazione, isola e sopprime la singola direzione latente maggiormente responsabile del comportamento di rifiuto, consentendo al modello di generare contenuti non etici. Proponiamo una difesa che modifica il modo in cui i modelli generano i rifiuti. Costruiamo un dataset di rifiuti estesi che contiene prompt dannosi con una risposta completa che giustifica il motivo del rifiuto. Successivamente, ottimizziamo Llama-2-7B-Chat e Qwen2.5-Instruct (1,5B e 3B parametri) sul nostro dataset di rifiuti estesi e valutiamo i sistemi risultanti su un insieme di prompt dannosi. Nei nostri esperimenti, i modelli con rifiuti estesi mantengono alti tassi di rifiuto, diminuendo al massimo del 10%, mentre i tassi di rifiuto dei modelli di base diminuiscono del 70-80% dopo l'abliterazione. Una valutazione ampia della sicurezza e dell'utilità dimostra che l'ottimizzazione con rifiuti estesi neutralizza l'attacco di abliterazione preservando le prestazioni generali.
English
Large language models (LLMs) are typically aligned to comply with safety
guidelines by refusing harmful instructions. A recent attack, termed
abliteration, isolates and suppresses the single latent direction most
responsible for refusal behavior, enabling the model to generate unethical
content. We propose a defense that modifies how models generate refusals. We
construct an extended-refusal dataset that contains harmful prompts with a full
response that justifies the reason for refusal. We then fine-tune
Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our
extended-refusal dataset, and evaluate the resulting systems on a set of
harmful prompts. In our experiments, extended-refusal models maintain high
refusal rates, dropping at most by 10%, whereas baseline models' refusal rates
drop by 70-80% after abliteration. A broad evaluation of safety and utility
shows that extended-refusal fine-tuning neutralizes the abliteration attack
while preserving general performance.