ChatPaper.aiChatPaper

Pilotage sélectif : Contrôle préservant les normes par sélection discriminante des couches

Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

January 27, 2026
papers.authors: Quy-Anh Dang, Chris Ngo
cs.AI

papers.abstract

Malgré des progrès significatifs en alignement, les grands modèles de langage (LLM) restent vulnérables aux attaques adverses qui provoquent des comportements nuisibles. Les techniques de pilotage par activation offrent une approche d'intervention prometteuse au moment de l'inférence, mais les méthodes existantes souffrent de limitations critiques : l'addition d'activation nécessite un réglage minutieux des coefficients et est sensible aux variations de norme spécifiques à la couche, tandis que l'ablation directionnelle ne permet qu'un contrôle binaire. Des travaux récents sur le Pilotage Angulaire introduisent un contrôle continu via une rotation dans un sous-espace 2D, mais leur implémentation pratique viole la préservation de la norme, entraînant un décalage de distribution et un effondrement de la génération, particulièrement dans les modèles de moins de 7 milliards de paramètres. Nous proposons le Pilotage Sélectif, qui résout ces limitations par deux innovations clés : (1) une formulation mathématiquement rigoureuse de rotation préservant la norme qui maintient l'intégrité de la distribution des activations, et (2) une sélection discriminative des couches qui n'applique le pilotage qu'aux endroits où les représentations des caractéristiques présentent un alignement de classe de signe opposé. Des expériences sur neuf modèles démontrent que le Pilotage Sélectif atteint des taux de réussite d'attaque 5,5 fois supérieurs aux méthodes antérieures tout en maintenant zéro violation de perplexité et une rétention des capacités d'environ 100 % sur des benchmarks standard. Notre approche fournit un cadre principiel et efficace pour une modification contrôlée et stable du comportement des LLM. Code : https://github.com/knoveleng/steering
English
Despite significant progress in alignment, large language models (LLMs) remain vulnerable to adversarial attacks that elicit harmful behaviors. Activation steering techniques offer a promising inference-time intervention approach, but existing methods suffer from critical limitations: activation addition requires careful coefficient tuning and is sensitive to layer-specific norm variations, while directional ablation provides only binary control. Recent work on Angular Steering introduces continuous control via rotation in a 2D subspace, but its practical implementation violates norm preservation, causing distribution shift and generation collapse, particularly in models below 7B parameters. We propose Selective Steering, which addresses these limitations through two key innovations: (1) a mathematically rigorous norm-preserving rotation formulation that maintains activation distribution integrity, and (2) discriminative layer selection that applies steering only where feature representations exhibit opposite-signed class alignment. Experiments across nine models demonstrate that Selective Steering achieves 5.5x higher attack success rates than prior methods while maintaining zero perplexity violations and approximately 100\% capability retention on standard benchmarks. Our approach provides a principled, efficient framework for controllable and stable LLM behavior modification. Code: https://github.com/knoveleng/steering
PDF52January 29, 2026