Virando o Feitiço ao Contrário: Amplificação Leve de Alinhamento via Injeção de Segurança de Rank Um
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
Autores: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
Resumo
O alinhamento de segurança em Modelos de Linguagem de Grande Escala (LLMs) frequentemente envolve a mediação de representações internas para recusar solicitações prejudiciais. Pesquisas recentes demonstraram que esses mecanismos de segurança podem ser contornados ao se ablar ou remover direções representacionais específicas dentro do modelo. Neste artigo, propomos a abordagem oposta: a Injeção de Segurança de Rank Um (ROSI), um método de caixa branca que amplifica o alinhamento de segurança de um modelo ao direcionar permanentemente suas ativações para o subespaço de mediação de recusa. O ROSI opera como uma modificação simples e sem necessidade de ajuste fino, aplicada a todas as matrizes de escrita do fluxo residual. A direção de segurança necessária pode ser calculada a partir de um pequeno conjunto de pares de instruções prejudiciais e inofensivas. Mostramos que o ROSI aumenta consistentemente as taxas de recusa de segurança - conforme avaliado pelo Llama Guard 3 - enquanto preserva a utilidade do modelo em benchmarks padrão, como MMLU, HellaSwag e Arc. Além disso, demonstramos que o ROSI também pode realinhar modelos 'não censurados' ao amplificar suas próprias direções de segurança latentes, mostrando sua utilidade como um procedimento de segurança eficaz para a última etapa. Nossos resultados sugerem que o direcionamento de pesos interpretável e direcionado é um mecanismo barato e potente para melhorar a segurança dos LLMs, complementando paradigmas de ajuste fino mais intensivos em recursos.
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.