Eine peinlich einfache Verteidigung gegen LLM-Zerstörungsangriffe
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
May 25, 2025
Autoren: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden typischerweise so ausgerichtet, dass sie Sicherheitsrichtlinien einhalten, indem sie schädliche Anweisungen ablehnen. Ein kürzlich entdeckter Angriff, genannt Abliteration, isoliert und unterdrückt die einzelne latente Richtung, die hauptsächlich für das Ablehnungsverhalten verantwortlich ist, und ermöglicht es dem Modell, unethische Inhalte zu generieren. Wir schlagen eine Verteidigungsstrategie vor, die die Art und Weise, wie Modelle Ablehnungen generieren, verändert. Wir erstellen einen erweiterten Ablehnungsdatensatz, der schädliche Aufforderungen mit einer vollständigen Antwort enthält, die den Grund für die Ablehnung rechtfertigt. Anschließend feintunen wir Llama-2-7B-Chat und Qwen2.5-Instruct (1,5B und 3B Parameter) auf unserem erweiterten Ablehnungsdatensatz und bewerten die resultierenden Systeme anhand einer Reihe von schädlichen Aufforderungen. In unseren Experimenten behalten die Modelle mit erweiterter Ablehnung hohe Ablehnungsraten bei, die höchstens um 10 % sinken, während die Ablehnungsraten der Basismodelle nach der Abliteration um 70-80 % sinken. Eine umfassende Bewertung von Sicherheit und Nutzen zeigt, dass das Feintuning mit erweiterter Ablehnung den Abliterationsangriff neutralisiert, während die allgemeine Leistung erhalten bleibt.
English
Large language models (LLMs) are typically aligned to comply with safety
guidelines by refusing harmful instructions. A recent attack, termed
abliteration, isolates and suppresses the single latent direction most
responsible for refusal behavior, enabling the model to generate unethical
content. We propose a defense that modifies how models generate refusals. We
construct an extended-refusal dataset that contains harmful prompts with a full
response that justifies the reason for refusal. We then fine-tune
Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our
extended-refusal dataset, and evaluate the resulting systems on a set of
harmful prompts. In our experiments, extended-refusal models maintain high
refusal rates, dropping at most by 10%, whereas baseline models' refusal rates
drop by 70-80% after abliteration. A broad evaluation of safety and utility
shows that extended-refusal fine-tuning neutralizes the abliteration attack
while preserving general performance.Summary
AI-Generated Summary