YaPO: ドメイン適応のための学習可能なスパース活性化制御ベクトル
YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation
January 13, 2026
著者: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang
cs.AI
要旨
大規模言語モデル(LLM)の活性化介入による制御は、アライメントとパーソナライゼーションにおいてファインチューニングに代わる軽量な手法として登場している。双方向選好最適化(BiPO)に関する最近の研究では、直接選好最適化(DPO)の形式で選好データから密な制御ベクトルを直接学習できることが示されており、真実性、虚構生成、安全性の振る舞いを制御できる。しかし、ニューロンの多重意味性により、密な制御ベクトルは複数の潜在因子が絡み合うことが多く、文化的アライメントのような細粒度設定(例えば中東文化間で密接に関連する価値観や振る舞いを区別する必要がある場合)における有効性と安定性が制限される。本論文では、スパース自己符号化器(SAE)の潜在空間でスパースな制御ベクトルを学習する参照不要手法「Yet another Policy Optimization(YaPO)」を提案する。スパースコードを最適化することで、YaPOは分離可能で解釈性が高く効率的な制御方向を生成する。実証的に、YaPOは密な制御ベースラインと比較して収束が速く、より強力な性能を達成し、訓練安定性が向上することを示す。文化的アライメントを超えて、YaPOは虚構生成、富の追求、ジェイルブレイク、権力追求など、アライメント関連の幅広い振る舞いに一般化する。重要なことに、YaPOは一般知識を保持し、MMLUでの性能劣化は認められない。全体として、我々の結果はYaPOがLLMの効率的で安定した細粒度アライメントの一般的な手法を提供し、制御性とドメイン適応への広範な応用が可能であることを示す。関連するコードとデータは公開されている(https://github.com/MBZUAI-Paris/YaPO)。
English
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.