Een ongelooflijk eenvoudige verdediging tegen LLM-vernietigingsaanvallen
An Embarrassingly Simple Defense Against LLM Abliteration Attacks
May 25, 2025
Auteurs: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, Bernard Ghanem, George Turkiyyah
cs.AI
Samenvatting
Grote taalmodellen (LLMs) worden doorgaans afgestemd om veiligheidsrichtlijnen te volgen door schadelijke instructies te weigeren. Een recente aanval, genaamd abliteratie, isoleert en onderdrukt de enkelvoudige latente richting die het meest verantwoordelijk is voor het weigeringsgedrag, waardoor het model in staat wordt gesteld om onethische inhoud te genereren. Wij stellen een verdediging voor die de manier waarop modellen weigeringen genereren, aanpast. We construeren een uitgebreid-weigeringsdataset die schadelijke prompts bevat met een volledig antwoord dat de reden voor de weigering rechtvaardigt. Vervolgens fine-tunen we Llama-2-7B-Chat en Qwen2.5-Instruct (1,5B en 3B parameters) op onze uitgebreid-weigeringsdataset, en evalueren we de resulterende systemen op een set schadelijke prompts. In onze experimenten behouden uitgebreid-weigeringsmodellen hoge weigeringspercentages, die hooguit met 10% dalen, terwijl de weigeringspercentages van baseline-modellen met 70-80% dalen na abliteratie. Een brede evaluatie van veiligheid en bruikbaarheid toont aan dat fine-tuning met uitgebreide weigeringen de abliteratie-aanval neutraliseert terwijl de algemene prestaties behouden blijven.
English
Large language models (LLMs) are typically aligned to comply with safety
guidelines by refusing harmful instructions. A recent attack, termed
abliteration, isolates and suppresses the single latent direction most
responsible for refusal behavior, enabling the model to generate unethical
content. We propose a defense that modifies how models generate refusals. We
construct an extended-refusal dataset that contains harmful prompts with a full
response that justifies the reason for refusal. We then fine-tune
Llama-2-7B-Chat and Qwen2.5-Instruct (1.5B and 3B parameters) on our
extended-refusal dataset, and evaluate the resulting systems on a set of
harmful prompts. In our experiments, extended-refusal models maintain high
refusal rates, dropping at most by 10%, whereas baseline models' refusal rates
drop by 70-80% after abliteration. A broad evaluation of safety and utility
shows that extended-refusal fine-tuning neutralizes the abliteration attack
while preserving general performance.