Rivolgere l'Incantesimo: Amplificazione Leggera dell'Allineamento tramite Iniezione di Sicurezza di Rango Uno
Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection
August 28, 2025
Autori: Harethah Abu Shairah, Hasan Abed Al Kader Hammoud, George Turkiyyah, Bernard Ghanem
cs.AI
Abstract
L'allineamento alla sicurezza nei Large Language Models (LLMs) spesso implica la mediazione delle rappresentazioni interne per rifiutare richieste dannose. Ricerche recenti hanno dimostrato che questi meccanismi di sicurezza possono essere bypassati ablating o rimuovendo specifiche direzioni rappresentative all'interno del modello. In questo articolo, proponiamo l'approccio opposto: Rank-One Safety Injection (ROSI), un metodo white-box che amplifica l'allineamento alla sicurezza di un modello orientando permanentemente le sue attivazioni verso il sottospazio di mediazione del rifiuto. ROSI opera come una semplice modifica dei pesi di rango uno, applicata a tutte le matrici di scrittura del flusso residuo, senza necessità di fine-tuning. La direzione di sicurezza richiesta può essere calcolata da un piccolo insieme di coppie di istruzioni dannose e innocue. Mostriamo che ROSI aumenta costantemente i tassi di rifiuto per motivi di sicurezza - valutati da Llama Guard 3 - preservando l'utilità del modello su benchmark standard come MMLU, HellaSwag e Arc. Inoltre, dimostriamo che ROSI può riallineare modelli "non censurati" amplificando le loro direzioni di sicurezza latenti, evidenziando la sua utilità come procedura di sicurezza efficace nell'ultimo miglio. I nostri risultati suggeriscono che l'orientamento mirato e interpretabile dei pesi è un meccanismo economico e potente per migliorare la sicurezza degli LLM, complementando paradigmi di fine-tuning più dispendiosi in termini di risorse.
English
Safety alignment in Large Language Models (LLMs) often involves mediating
internal representations to refuse harmful requests. Recent research has
demonstrated that these safety mechanisms can be bypassed by ablating or
removing specific representational directions within the model. In this paper,
we propose the opposite approach: Rank-One Safety Injection (ROSI), a white-box
method that amplifies a model's safety alignment by permanently steering its
activations toward the refusal-mediating subspace. ROSI operates as a simple,
fine-tuning-free rank-one weight modification applied to all residual stream
write matrices. The required safety direction can be computed from a small set
of harmful and harmless instruction pairs. We show that ROSI consistently
increases safety refusal rates - as evaluated by Llama Guard 3 - while
preserving the utility of the model on standard benchmarks such as MMLU,
HellaSwag, and Arc. Furthermore, we show that ROSI can also re-align
'uncensored' models by amplifying their own latent safety directions,
demonstrating its utility as an effective last-mile safety procedure. Our
results suggest that targeted, interpretable weight steering is a cheap and
potent mechanism to improve LLM safety, complementing more resource-intensive
fine-tuning paradigms.