ChatPaper.aiChatPaper

Une défense d'une simplicité embarrassante contre les attaques d'oblitération des LLM

An Embarrassingly Simple Defense Against LLM Abliteration Attacks

May 25, 2025
Auteurs: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont généralement alignés pour respecter les directives de sécurité en refusant les instructions nuisibles. Une attaque récente, appelée ablitération, isole et supprime la direction latente unique la plus responsable du comportement de refus, permettant au modèle de générer du contenu contraire à l'éthique. Nous proposons une défense qui modifie la manière dont les modèles génèrent les refus. Nous construisons un ensemble de données de refus étendu qui contient des invites nuisibles accompagnées d'une réponse complète justifiant la raison du refus. Nous affinons ensuite Llama-2-7B-Chat et Qwen2.5-Instruct (1,5 et 3 milliards de paramètres) sur notre ensemble de données de refus étendu, et évaluons les systèmes résultants sur un ensemble d'invites nuisibles. Dans nos expériences, les modèles de refus étendu maintiennent des taux de refus élevés, diminuant au maximum de 10 %, tandis que les taux de refus des modèles de base chutent de 70 à 80 % après ablitération. Une évaluation approfondie de la sécurité et de l'utilité montre que l'affinage par refus étendu neutralise l'attaque d'ablitération tout en préservant les performances générales.
English
Large language models (LLMs) are typically aligned to comply with safety guidelines by refusing harmful instructions. A recent attack, termed abliteration, isolates and suppresses the single latent direction most responsible for refusal behavior, enabling the model to generate unethical content. We propose a defense that modifies how models generate refusals. We construct an extended-refusal dataset that contains harmful prompts with a full response that justifies the reason for refusal. We then fine-tune Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our extended-refusal dataset, and evaluate the resulting systems on a set of harmful prompts. In our experiments, extended-refusal models maintain high refusal rates, dropping at most by 10%, whereas baseline models' refusal rates drop by 70-80% after abliteration. A broad evaluation of safety and utility shows that extended-refusal fine-tuning neutralizes the abliteration attack while preserving general performance.

Summary

AI-Generated Summary

PDF42May 27, 2025