ChatPaper.aiChatPaper

Inverser le sort : Amplification légère de l'alignement via l'injection de sécurité de rang un

Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

August 28, 2025
papers.authors: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI

papers.abstract

L'alignement de sécurité dans les modèles de langage de grande taille (LLMs) implique souvent la médiation des représentations internes pour refuser les requêtes nuisibles. Des recherches récentes ont montré que ces mécanismes de sécurité peuvent être contournés en supprimant ou en altérant des directions représentationnelles spécifiques au sein du modèle. Dans cet article, nous proposons l'approche inverse : l'Injection de Sécurité de Rang Un (ROSI), une méthode en boîte blanche qui amplifie l'alignement de sécurité d'un modèle en orientant de manière permanente ses activations vers le sous-espace médiateur de refus. ROSI fonctionne comme une simple modification de poids de rang un, appliquée à toutes les matrices d'écriture du flux résiduel, sans nécessiter de fine-tuning. La direction de sécurité requise peut être calculée à partir d'un petit ensemble de paires d'instructions nuisibles et inoffensives. Nous montrons que ROSI augmente systématiquement les taux de refus de sécurité - évalués par Llama Guard 3 - tout en préservant l'utilité du modèle sur des benchmarks standards tels que MMLU, HellaSwag et Arc. De plus, nous montrons que ROSI peut également réaligner des modèles 'non censurés' en amplifiant leurs propres directions de sécurité latentes, démontrant ainsi son utilité comme procédure de sécurité de dernier recours. Nos résultats suggèrent que l'orientation ciblée et interprétable des poids est un mécanisme peu coûteux et puissant pour améliorer la sécurité des LLMs, complétant ainsi les paradigmes de fine-tuning plus gourmands en ressources.
English
Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.
PDF122August 29, 2025