De Betovering Omkeren: Lichtgewicht Uitlijning Amplificatie via Rang-Één Veiligheidsinjectie
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
Auteurs: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
Samenvatting
Veiligheidsafstemming in Large Language Models (LLMs) houdt vaak in dat interne representaties worden bemiddeld om schadelijke verzoeken te weigeren. Recent onderzoek heeft aangetoond dat deze veiligheidsmechanismen kunnen worden omzeild door specifieke representatierichtingen binnen het model te verwijderen of uit te schakelen. In dit artikel stellen we de tegenovergestelde aanpak voor: Rank-One Safety Injection (ROSI), een white-box methode die de veiligheidsafstemming van een model versterkt door de activeringen permanent te sturen naar de subspace die het weigeren bemiddelt. ROSI werkt als een eenvoudige, fijn-tuning-vrije rang-één gewichtsmodificatie die wordt toegepast op alle residustroom-schrijftmatrices. De vereiste veiligheidsrichting kan worden berekend aan de hand van een kleine set schadelijke en onschadelijke instructieparen. We laten zien dat ROSI consistent de veiligheidsweigeringspercentages verhoogt - zoals geëvalueerd door Llama Guard 3 - terwijl de bruikbaarheid van het model op standaardbenchmarks zoals MMLU, HellaSwag en Arc behouden blijft. Bovendien tonen we aan dat ROSI ook 'ongecensureerde' modellen opnieuw kan afstemmen door hun eigen latente veiligheidsrichtingen te versterken, wat het nut ervan aantoont als een effectieve laatste-mijl veiligheidsprocedure. Onze resultaten suggereren dat gericht, interpreteerbaar gewichtssturen een goedkope en krachtige mechanisme is om de veiligheid van LLMs te verbeteren, wat een aanvulling vormt op meer resource-intensieve fijn-tuning paradigma's.
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.