YaPO: Leerbare Sparse Activatiestuurvectoren voor Domeinaanpassing

Samenvatting

Het sturen van grote taalmodellen (LLM's) via activatie-interventies is naar voren gekomen als een lichtgewicht alternatief voor fine-tuning voor alignment en personalisatie. Recent werk over Bi-directionele Preference Optimalisatie (BiPO) toont aan dat dichte stuurvectoren direct kunnen worden geleerd van preferentiedata op een Direct Preference Optimization (DPO)-manier, waardoor controle over waarheidsgetrouwheid, hallucinaties en veiligheidsgedrag mogelijk wordt. Dichte stuurvectoren verstrengelen echter vaak meerdere latente factoren vanwege neuronale multi-semantiek, wat hun effectiviteit en stabiliteit beperkt in fijnmazige settings zoals culturele alignment, waar nauw verwante waarden en gedragingen (bijvoorbeeld onder Midden-Oosterse culturen) onderscheiden moeten worden. In dit artikel stellen we Yet another Policy Optimization (YaPO) voor, een referentievrije methode die sparse stuurvectoren leert in de latente ruimte van een Sparse Autoencoder (SAE). Door sparse codes te optimaliseren, produceert YaPO ontwarde, interpreteerbare en efficiënte stuurrichtingen. Empirisch tonen we aan dat YaPO sneller convergeert, sterkere prestaties bereikt en verbeterde trainingsstabiliteit vertoont in vergelijking met baseline-methoden die dichte vectoren gebruiken. Naast culturele alignment generaliseert YaPO naar een reeks alignment-gerelateerde gedragingen, waaronder hallucinatie, rijkdomzoekend gedrag, jailbreaks en machtszoekend gedrag. Belangrijk is dat YaPO algemene kennis behoudt, zonder meetbare achteruitgang op MMLU. Over het geheel genomen tonen onze resultaten aan dat YaPO een algemeen recept biedt voor efficiënte, stabiele en fijnmazige alignment van LLM's, met brede toepassingen voor bestuurbaarheid en domeinaanpassing. De bijbehorende code en data zijn publiekelijk beschikbaar op https://github.com/MBZUAI-Paris/YaPO.

English

Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.

YaPO: Leerbare Sparse Activatiestuurvectoren voor Domeinaanpassing

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

Samenvatting

Support