ChatPaper.aiChatPaper

選択的操舵:識別的な層選択による規範保存制御

Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

January 27, 2026
著者: Quy-Anh Dang, Chris Ngo
cs.AI

要旨

対話モデルのアライメントにおいて大きな進展が見られるにもかかわらず、大規模言語モデル(LLM)は有害な振る舞いを引き起こす敵対的攻撃に対して脆弱性を残している。活性化ステアリング技術は推論時介入手法として有望であるが、既存手法には重大な限界がある:活性化加算は係数の慎重な調整を必要とし層ごとのノルム変動に敏感であり、方向性 ablation は二値的な制御しか提供しない。Angular Steering に関する最近の研究は2D部分空間内の回転による連続制御を導入するが、その実用的実装はノルム保存を破り、分布シフトと生成崩壊を引き起こす(特に70億パラメータ未満のモデルで顕著)。本論文では Selective Steering を提案し、以下の二つの革新的手法によりこれらの課題に対処する:(1)活性化分布の完全性を維持する数学的に厳密なノルム保存回転定式化、(2)特徴表現が逆符号のクラスアライメントを示す層にのみステアリングを適用する識別的な層選択。9つのモデルによる実験では、Selective Steering が従来手法より5.5倍高い攻撃成功率を達成し、パープレキシティ違反ゼロ、標準ベンチマークでの約100%の能力維持を実証した。本手法は制御可能かつ安定したLLM振る舞い変更のための原理的で効率的な枠組みを提供する。コード:https://github.com/knoveleng/steering
English
Despite significant progress in alignment, large language models (LLMs) remain vulnerable to adversarial attacks that elicit harmful behaviors. Activation steering techniques offer a promising inference-time intervention approach, but existing methods suffer from critical limitations: activation addition requires careful coefficient tuning and is sensitive to layer-specific norm variations, while directional ablation provides only binary control. Recent work on Angular Steering introduces continuous control via rotation in a 2D subspace, but its practical implementation violates norm preservation, causing distribution shift and generation collapse, particularly in models below 7B parameters. We propose Selective Steering, which addresses these limitations through two key innovations: (1) a mathematically rigorous norm-preserving rotation formulation that maintains activation distribution integrity, and (2) discriminative layer selection that applies steering only where feature representations exhibit opposite-signed class alignment. Experiments across nine models demonstrate that Selective Steering achieves 5.5x higher attack success rates than prior methods while maintaining zero perplexity violations and approximately 100\% capability retention on standard benchmarks. Our approach provides a principled, efficient framework for controllable and stable LLM behavior modification. Code: https://github.com/knoveleng/steering
PDF52January 29, 2026