ChatPaper.aiChatPaper

YaPO: Erlernbare spärliche Aktivierungs-Steuerungsvektoren für Domänenanpassung

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

January 13, 2026
papers.authors: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang
cs.AI

papers.abstract

Die Steuerung großer Sprachmodelle (LLMs) durch Aktivierungsinterventionen hat sich als leichtgewichtige Alternative zum Fine-Tuning für Alignment und Personalisierung etabliert. Jüngste Arbeiten zur bidirektionalen Präferenzoptimierung (BiPO) zeigen, dass dichte Steuerungsvektoren direkt aus Präferenzdaten nach Art der Direct Preference Optimization (DPO) erlernt werden können, was die Kontrolle über Wahrhaftigkeit, Halluzinationen und Sicherheitsverhalten ermöglicht. Allerdings verschränken dichte Steuerungsvektoren aufgrund neuronaler Multisemantik oft mehrere latente Faktoren, was ihre Wirksamkeit und Stabilität in feinkörnigen Szenarien wie kulturellem Alignment einschränkt, wo eng verwandte Werte und Verhaltensweisen (z.B. zwischen nahöstlichen Kulturen) unterschieden werden müssen. In diesem Artikel schlagen wir Yet another Policy Optimization (YaPO) vor, eine referenzfreie Methode, die sparse Steuerungsvektoren im latenten Raum eines Sparse Autoencoders (SAE) erlernt. Durch die Optimierung sparser Codes erzeugt YaPO entflochtene, interpretierbare und effiziente Steuerungsrichtungen. Empirisch zeigen wir, dass YaPO im Vergleich zu dichten Steuerungs-Baselines schneller konvergiert, eine höhere Leistung erzielt und eine verbesserte Trainingsstabilität aufweist. Über kulturelles Alignment hinaus verallgemeinert YaPO auf eine Reihe von alignmentbezogenen Verhaltensweisen, einschließlich Halluzinationen, Streben nach Reichtum, Jailbreaks und Machtstreben. Wichtig ist, dass YaPO allgemeines Wissen bewahrt, ohne messbare Verschlechterung auf MMLU. Insgesamt zeigen unsere Ergebnisse, dass YaPO ein allgemeines Rezept für effizientes, stabiles und feinkörniges Alignment von LLMs bietet, mit breiten Anwendungen in Steuerbarkeit und Domänenanpassung. Der zugehörige Code und die Daten sind öffentlich verfügbar: https://github.com/MBZUAI-Paris/YaPO.
English
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.
PDF52January 21, 2026