Steer2Edit: 活性化誘導からコンポーネントレベル編集へ
Steer2Edit: From Activation Steering to Component-Level Editing
February 10, 2026
著者: Chung-En Sun, Ge Yan, Zimo Wang, Tsui-Wei Weng
cs.AI
要旨
ステアリング手法は、大規模言語モデルの振る舞いを隠れ表現内の意味的方向の特定によって制御するが、通常は推論時の活性化介入を通じて実現され、モデルの内部状態に固定的で全体的な修正を適用する。こうした介入は効果的であるものの、強力な制御下では望ましくない属性と有用性のトレードオフを引き起こしがちである。なぜなら、多くの振る舞いがモデル構成要素のごく少数で不均質な部分集合によって支配されているという事実を無視しているためである。本研究では、Steer2Editを提案する。これは理論的に基礎付けられた、訓練不要のフレームワークであり、ステアリングベクトルを推論時の制御信号から、コンポーネントレベルでのランク1重み編集のための診断信号へと変換する。Steer2Editは、生成中にステアリング方向を一律に注入する代わりに、個々の注意ヘッドとMLPニューロンにわたって振る舞いへの影響を選択的に再分配し、標準的な順方向計算を保持し、最適化された並列推論との互換性を維持する解釈可能な編集を実現する。安全性アライメント、幻覚緩和、推論効率化にわたる実験において、Steer2Editは一貫してより好ましい属性と有用性のトレードオフを達成する:下流タスクの性能が同等の場合、安全性を最大17.2%向上させ、真実性を9.8%増加させ、推論長を平均12.2%短縮する。全体として、Steer2Editは、ステアリング信号を解釈可能で訓練不要なパラメータ更新へと変換することにより、表現ステアリングと重み編集の間の原理的な架け橋を提供する。
English
Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.