Virando o Feitiço ao Contrário: Amplificação Leve de Alinhamento via Injeção de Segurança de Rank Um

Resumo

O alinhamento de segurança em Modelos de Linguagem de Grande Escala (LLMs) frequentemente envolve a mediação de representações internas para recusar solicitações prejudiciais. Pesquisas recentes demonstraram que esses mecanismos de segurança podem ser contornados ao se ablar ou remover direções representacionais específicas dentro do modelo. Neste artigo, propomos a abordagem oposta: a Injeção de Segurança de Rank Um (ROSI), um método de caixa branca que amplifica o alinhamento de segurança de um modelo ao direcionar permanentemente suas ativações para o subespaço de mediação de recusa. O ROSI opera como uma modificação simples e sem necessidade de ajuste fino, aplicada a todas as matrizes de escrita do fluxo residual. A direção de segurança necessária pode ser calculada a partir de um pequeno conjunto de pares de instruções prejudiciais e inofensivas. Mostramos que o ROSI aumenta consistentemente as taxas de recusa de segurança - conforme avaliado pelo Llama Guard 3 - enquanto preserva a utilidade do modelo em benchmarks padrão, como MMLU, HellaSwag e Arc. Além disso, demonstramos que o ROSI também pode realinhar modelos 'não censurados' ao amplificar suas próprias direções de segurança latentes, mostrando sua utilidade como um procedimento de segurança eficaz para a última etapa. Nossos resultados sugerem que o direcionamento de pesos interpretável e direcionado é um mecanismo barato e potente para melhorar a segurança dos LLMs, complementando paradigmas de ajuste fino mais intensivos em recursos.

English

Safety alignment in Large Language Models (LLMs) often involves mediating internal representations to refuse harmful requests. Recent research has demonstrated that these safety mechanisms can be bypassed by ablating or removing specific representational directions within the model. In this paper, we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box method that amplifies a model's safety alignment by permanently steering its activations toward the refusal-mediating subspace. ROSI operates as a simple, fine-tuning-free rank-one weight modification applied to all residual stream write matrices. The required safety direction can be computed from a small set of harmful and harmless instruction pairs. We show that ROSI consistently increases safety refusal rates - as evaluated by Llama Guard 3 - while preserving the utility of the model on standard benchmarks such as MMLU, HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align 'uncensored' models by amplifying their own latent safety directions, demonstrating its utility as an effective last-mile safety procedure. Our results suggest that targeted, interpretable weight steering is a cheap and potent mechanism to improve LLM safety, complementing more resource-intensive fine-tuning paradigms.

Virando o Feitiço ao Contrário: Amplificação Leve de Alinhamento via Injeção de Segurança de Rank Um

Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

Resumo

Support