ChatPaper.aiChatPaper

Den Zauber umkehren: Leichtgewichtige Ausrichtungsverstärkung durch Rang-Eins-Sicherheitsinjektion

Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

August 28, 2025
papers.authors: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI

papers.abstract

Die Sicherheitsausrichtung in großen Sprachmodellen (LLMs) beinhaltet oft die Vermittlung interner Repräsentationen, um schädliche Anfragen abzulehnen. Jüngste Forschungen haben gezeigt, dass diese Sicherheitsmechanismen umgangen werden können, indem bestimmte repräsentative Richtungen innerhalb des Modells abgetragen oder entfernt werden. In diesem Artikel schlagen wir den gegenteiligen Ansatz vor: Rank-One Safety Injection (ROSI), eine White-Box-Methode, die die Sicherheitsausrichtung eines Modells verstärkt, indem sie dessen Aktivierungen dauerhaft in den vermittelnden Ablehnungsunterraum lenkt. ROSI funktioniert als einfache, feinabstimmungsfreie Rang-Eins-Gewichtsmodifikation, die auf alle Residual-Stream-Schreibmatrizen angewendet wird. Die erforderliche Sicherheitsrichtung kann aus einer kleinen Menge von schädlichen und harmlosen Instruktionspaaren berechnet werden. Wir zeigen, dass ROSI die Sicherheitsablehnungsraten – bewertet durch Llama Guard 3 – konsequent erhöht, während die Nützlichkeit des Modells auf Standard-Benchmarks wie MMLU, HellaSwag und Arc erhalten bleibt. Darüber hinaus zeigen wir, dass ROSI auch ‚unkontrollierte‘ Modelle neu ausrichten kann, indem es deren eigene latente Sicherheitsrichtungen verstärkt, was seinen Nutzen als effektives letztes Sicherheitsverfahren unterstreicht. Unsere Ergebnisse deuten darauf hin, dass gezielte, interpretierbare Gewichtslenkung ein kostengünstiger und wirksamer Mechanismus zur Verbesserung der LLM-Sicherheit ist, der ressourcenintensive Feinabstimmungsparadigmen ergänzt.
English
Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.
PDF122August 29, 2025