Controllo Selettivo: Controllo che Preserva le Norme Attraverso la Selezione Stratificata Discriminativa

Abstract

Nonostante i significativi progressi nell'allineamento, i grandi modelli linguistici (LLM) rimangono vulnerabili ad attacchi avversari che inducono comportamenti dannosi. Le tecniche di *steering* delle attivazioni offrono un approccio promettente di intervento al momento dell'inferenza, ma i metodi esistenti presentano limitazioni critiche: l'addizione di attivazioni richiede una regolazione accurata dei coefficienti ed è sensibile alle variazioni di norma specifiche per strato, mentre l'ablazione direzionale fornisce solo un controllo binario. Recenti lavori sull'*Angular Steering* introducono un controllo continuo mediante rotazione in un sottospazio 2D, ma la sua implementazione pratica viola la preservazione della norma, causando uno spostamento della distribuzione e un collasso della generazione, specialmente in modelli con meno di 7B di parametri. Proponiamo lo *Selective Steering*, che affronta queste limitazioni attraverso due innovazioni chiave: (1) una formulazione matematicamente rigorosa della rotazione che preserva la norma, mantenendo l'integrità della distribuzione delle attivazioni, e (2) una selezione discriminativa degli strati che applica lo *steering* solo dove le rappresentazioni delle feature mostrano un allineamento di classe con segno opposto. Esperimenti condotti su nove modelli dimostrano che lo *Selective Steering* raggiunge tassi di successo degli attacchi 5,5 volte superiori rispetto ai metodi precedenti, mantenendo zero violazioni della perplessità e una ritenzione delle capacità approssimativamente del 100% su benchmark standard. Il nostro approccio fornisce una struttura rigorosa ed efficiente per una modifica del comportamento degli LLM controllabile e stabile. Codice: https://github.com/knoveleng/steering

English

Despite significant progress in alignment, large language models (LLMs) remain vulnerable to adversarial attacks that elicit harmful behaviors. Activation steering techniques offer a promising inference-time intervention approach, but existing methods suffer from critical limitations: activation addition requires careful coefficient tuning and is sensitive to layer-specific norm variations, while directional ablation provides only binary control. Recent work on Angular Steering introduces continuous control via rotation in a 2D subspace, but its practical implementation violates norm preservation, causing distribution shift and generation collapse, particularly in models below 7B parameters. We propose Selective Steering, which addresses these limitations through two key innovations: (1) a mathematically rigorous norm-preserving rotation formulation that maintains activation distribution integrity, and (2) discriminative layer selection that applies steering only where feature representations exhibit opposite-signed class alignment. Experiments across nine models demonstrate that Selective Steering achieves 5.5x higher attack success rates than prior methods while maintaining zero perplexity violations and approximately 100\% capability retention on standard benchmarks. Our approach provides a principled, efficient framework for controllable and stable LLM behavior modification. Code: https://github.com/knoveleng/steering

Controllo Selettivo: Controllo che Preserva le Norme Attraverso la Selezione Stratificata Discriminativa

Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

Abstract

Support