呪文を逆転させる:ランクワン安全注入による軽量なアライメント増幅
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
著者: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
要旨
大規模言語モデル(LLM)の安全性アライメントは、有害なリクエストを拒否するために内部表現を仲介することが多い。最近の研究では、モデル内の特定の表現方向を除去または削除することで、これらの安全機構を回避できることが示されている。本論文では、逆のアプローチを提案する:Rank-One Safety Injection(ROSI)という、モデルの活性化を拒否を仲介する部分空間に向けて恒久的に誘導することで、モデルの安全性アライメントを増幅するホワイトボックス手法である。ROSIは、すべての残差ストリーム書き込み行列に適用される、シンプルでファインチューニング不要なランク1の重み修正として機能する。必要な安全性方向は、少数の有害および無害な指示ペアから計算できる。Llama Guard 3による評価では、ROSIが安全性拒否率を一貫して向上させつつ、MMLU、HellaSwag、Arcなどの標準ベンチマークにおけるモデルの有用性を維持することを示す。さらに、ROSIは「検閲されていない」モデルを再アライメントすることもでき、効果的な最終段階の安全手順としての有用性を実証する。我々の結果は、ターゲットを絞った解釈可能な重み誘導が、リソース集約的なファインチューニングパラダイムを補完する、安価で強力なLLM安全性向上メカニズムであることを示唆している。
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.