YaPO: Vettori di Attivazione Sparsi Apprendibili per l'Adattamento di Dominio

Abstract

La guida dei Large Language Model (LLM) tramite interventi sulle attivazioni è emersa come un'alternativa leggera al fine-tuning per l'allineamento e la personalizzazione. Recenti lavori sulla Ottimizzazione delle Preferenze Bidirezionale (BiPO) dimostrano che vettori di guida densi possono essere appresi direttamente da dati di preferenza in stile Ottimizzazione Diretta delle Preferenze (DPO), consentendo il controllo su veridicità, allucinazioni e comportamenti di sicurezza. Tuttavia, i vettori di guida densi spesso intrecciano molteplici fattori latenti a causa della multi-semanticità dei neuroni, limitando la loro efficacia e stabilità in contesti a grana fine come l'allineamento culturale, dove valori e comportamenti strettamente correlati (ad esempio, tra culture mediorientali) devono essere distinti. In questo articolo, proponiamo Yet another Policy Optimization (YaPO), un metodo senza riferimento che apprende vettori di guida sparsi nello spazio latente di un Autoencoder Sparso (SAE). Ottimizzando i codici sparsi, YaPO produce direzioni di guida disaccoppiate, interpretabili ed efficienti. Empiricamente, dimostriamo che YaPO converge più velocemente, raggiunge prestazioni più robuste e mostra una stabilità di addestramento migliorata rispetto ai baseline con vettori densi. Oltre all'allineamento culturale, YaPO si generalizza a una gamma di comportamenti legati all'allineamento, inclusi allucinazioni, ricerca di ricchezza, jailbreak e ricerca di potere. È importante sottolineare che YaPO preserva la conoscenza generale, senza un degrado misurabile su MMLU. Nel complesso, i nostri risultati mostrano che YaPO fornisce una ricetta generale per l'allineamento efficiente, stabile e a grana fine degli LLM, con ampie applicazioni alla controllabilità e all'adattamento di dominio. Il codice e i dati associati sono disponibili pubblicamente all'indirizzo https://github.com/MBZUAI-Paris/YaPO.

English

Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.

YaPO: Vettori di Attivazione Sparsi Apprendibili per l'Adattamento di Dominio

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

Abstract

Support