Разворот заклинания: Усиление выравнивания с минимальными затратами через внедрение безопасности ранга один
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
Авторы: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
Аннотация
Безопасное согласование в больших языковых моделях (LLM) часто предполагает управление внутренними представлениями для отклонения вредоносных запросов. Недавние исследования показали, что эти механизмы безопасности могут быть обойдены путем удаления или абляции определенных направлений представлений внутри модели. В данной статье мы предлагаем противоположный подход: Rank-One Safety Injection (ROSI) — метод "белого ящика", который усиливает безопасное согласование модели, постоянно направляя её активации в подпространство, опосредующее отказ. ROSI работает как простое, не требующее тонкой настройки изменение весов ранга один, применяемое ко всем матрицам записи в остаточном потоке. Необходимое направление безопасности может быть вычислено на основе небольшого набора пар вредоносных и безвредных инструкций. Мы показываем, что ROSI последовательно увеличивает частоту отказов по соображениям безопасности — по оценке Llama Guard 3 — при этом сохраняя полезность модели на стандартных тестах, таких как MMLU, HellaSwag и Arc. Кроме того, мы демонстрируем, что ROSI также может повторно согласовывать "нецензурированные" модели, усиливая их собственные латентные направления безопасности, что подтверждает её полезность как эффективной процедуры безопасности на последнем этапе. Наши результаты свидетельствуют о том, что целенаправленное и интерпретируемое управление весами является дешёвым и мощным механизмом для повышения безопасности LLM, дополняя более ресурсоёмкие парадигмы тонкой настройки.
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.