Cambiando el hechizo: Amplificación ligera de alineación mediante inyección de seguridad de rango uno
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
Autores: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
Resumen
La alineación de seguridad en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo implica mediar representaciones internas para rechazar solicitudes dañinas. Investigaciones recientes han demostrado que estos mecanismos de seguridad pueden ser eludidos mediante la ablación o eliminación de direcciones representativas específicas dentro del modelo. En este artículo, proponemos el enfoque opuesto: Inyección de Seguridad de Rango Uno (ROSI, por sus siglas en inglés), un método de caja blanca que amplifica la alineación de seguridad de un modelo al redirigir permanentemente sus activaciones hacia el subespacio que media el rechazo. ROSI opera como una modificación simple y sin necesidad de ajuste fino de los pesos de rango uno, aplicada a todas las matrices de escritura del flujo residual. La dirección de seguridad requerida puede calcularse a partir de un pequeño conjunto de pares de instrucciones dañinas e inofensivas. Demostramos que ROSI aumenta consistentemente las tasas de rechazo por seguridad —evaluadas mediante Llama Guard 3— mientras preserva la utilidad del modelo en benchmarks estándar como MMLU, HellaSwag y Arc. Además, mostramos que ROSI también puede realinear modelos 'sin censura' al amplificar sus propias direcciones de seguridad latentes, demostrando su utilidad como un procedimiento de seguridad efectivo de última milla. Nuestros resultados sugieren que la redirección de pesos específica e interpretable es un mecanismo económico y potente para mejorar la seguridad de los LLMs, complementando paradigmas de ajuste fino más intensivos en recursos.
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.