YaPO : Vecteurs de pilotage d'activation creux apprenables pour l'adaptation de domaine

papers.abstract

Le pilotage des modèles de langage de grande taille (LLM) par des interventions sur les activations est apparu comme une alternative légère au fine-tuning pour l'alignement et la personnalisation. Des travaux récents sur l'Optimisation de Préférences Bidirectionnelle (BiPO) montrent que des vecteurs de pilotage denses peuvent être appris directement à partir de données de préférences, suivant une approche de type Optimisation Directe des Préférences (DPO), permettant ainsi de contrôler la véracité, les hallucinations et les comportements liés à la sécurité. Cependant, les vecteurs de pilotage denses entremêlent souvent de multiples facteurs latents en raison de la multi-sémanticité des neurones, ce qui limite leur efficacité et leur stabilité dans des contextes nécessitant une granularité fine, comme l'alignement culturel, où des valeurs et comportements étroitement liés (par exemple, parmi les cultures du Moyen-Orient) doivent être distingués. Dans cet article, nous proposons Yet another Policy Optimization (YaPO), une méthode sans référence qui apprend des vecteurs de pilotage éparses dans l'espace latent d'un Autoencodeur Sparse (SAE). En optimisant les codes épars, YaPO produit des directions de pilotage désentrelacées, interprétables et efficaces. Empiriquement, nous montrons que YaPO converge plus rapidement, atteint de meilleures performances et présente une stabilité d'entraînement améliorée par rapport aux méthodes de référence utilisant des vecteurs denses. Au-delà de l'alignement culturel, YaPO se généralise à une gamme de comportements liés à l'alignement, incluant les hallucinations, la recherche de richesse, les jailbreaks et la recherche de pouvoir. Fait important, YaPO préserve les connaissances générales, sans dégradation mesurable sur MMLU. Globalement, nos résultats montrent que YaPO fournit une recette générale pour un alignement efficace, stable et à granularité fine des LLM, avec de larges applications pour la contrôlabilité et l'adaptation de domaine. Le code et les données associés sont disponibles publiquement à l'adresse https://github.com/MBZUAI-Paris/YaPO.

English

Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.

YaPO : Vecteurs de pilotage d'activation creux apprenables pour l'adaptation de domaine

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

papers.abstract

Support