ChatPaper.aiChatPaper

YaPO: 도메인 적응을 위한 학습 가능한 희소 활성화 스티어링 벡터

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

January 13, 2026
저자: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang
cs.AI

초록

대규모 언어 모델(LLM)의 활성화 개입을 통한 조정은 맞춤화와 개인화를 위한 미세 조정의 경량 대안으로 부상하고 있습니다. 양방향 선호도 최적화(BiPO)에 대한 최근 연구는 직접 선호도 최적화(DPO) 방식으로 선호도 데이터에서 직접 조밀한 조정 벡터를 학습할 수 있음을 보여주며, 사실성, 환각 및 안전성 행동 제어를 가능하게 합니다. 그러나 조밀한 조정 벡터는 뉴런의 다중 의미성으로 인해 여러 잠재 요인이 얽히는 경우가 많아, 밀접하게 관련된 가치와 행동(예: 중동 문화 간)을 구별해야 하는 문화적 맞춤화와 같은 세분화된 설정에서 효과성과 안정성이 제한됩니다. 본 논문에서는 참조 모델 없이 희소 오토인코더(SAE)의 잠재 공간에서 희소 조정 벡터를 학습하는 참조 무관 방법인 YaPO(Yet another Policy Optimization)를 제안합니다. YaPO는 희소 코드를 최적화함으로써 분리 가능하고 해석 가능하며 효율적인 조정 방향을 생성합니다. 실험적으로 YaPO는 조밀한 조정 기준선 대비 더 빠르게 수렴하고, 더 강력한 성능을 달성하며, 향상된 훈련 안정성을 보여줍니다. YaPO는 문화적 맞춤화를 넘어 환각, 부 추구, 탈옥, 권력 추구 등 다양한 맞춤화 관련 행동으로 일반화됩니다. 중요한 것은 YaPO가 MMLU에서 측정 가능한 성능 저하 없이 일반 지식을 보존한다는 점입니다. 전반적으로 우리의 결과는 YaPO가 LLM의 효율적이고 안정적이며 세분화된 맞춤화를 위한 일반적인 방법을 제공하며, 제어 가능성 및 도메인 적응에 폭넓게 적용될 수 있음을 보여줍니다. 관련 코드와 데이터는 https://github.com/MBZUAI-Paris/YaPO에서 공개되어 있습니다.
English
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.
PDF52January 21, 2026