YaPO: Vetores de Ativação Esparsos Aprendíveis para Direcionamento em Adaptação de Domínio

Resumo

A orientação de Grandes Modelos de Linguagem (LLMs) por meio de intervenções de ativação surgiu como uma alternativa leve ao *fine-tuning* para alinhamento e personalização. Trabalhos recentes sobre Otimização de Preferência Bidirecional (BiPO) mostram que vetores de orientação densos podem ser aprendidos diretamente de dados de preferência de maneira semelhante à Otimização de Preferência Direta (DPO), permitindo o controle sobre veracidade, alucinações e comportamentos de segurança. No entanto, os vetores de orientação densos frequentemente emaranham múltiplos fatores latentes devido à multi-semanticidade dos neurônios, limitando sua eficácia e estabilidade em configurações de granularidade fina, como o alinhamento cultural, onde valores e comportamentos intimamente relacionados (por exemplo, entre culturas do Oriente Médio) devem ser distinguidos. Neste artigo, propomos Mais uma Otimização de Política (YaPO), um método sem referência que aprende vetores de orientação esparsos no espaço latente de um Autoencoder Esparsificado (SAE). Ao otimizar códigos esparsos, o YaPO produz direções de orientação desembaraçadas, interpretáveis e eficientes. Empiricamente, mostramos que o YaPO converge mais rapidamente, alcança desempenho superior e exibe maior estabilidade de treinamento em comparação com linhas de base de orientação densa. Além do alinhamento cultural, o YaPO generaliza para uma gama de comportamentos relacionados ao alinhamento, incluindo alucinação, busca por riqueza, *jailbreak* e busca por poder. Importante, o YaPO preserva o conhecimento geral, sem degradação mensurável no MMLU. No geral, nossos resultados mostram que o YaPO fornece uma receita geral para o alinhamento eficiente, estável e de granularidade fina de LLMs, com amplas aplicações em controlabilidade e adaptação de domínio. O código e os dados associados estão publicamente disponíveis em https://github.com/MBZUAI-Paris/YaPO.

English

Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.

YaPO: Vetores de Ativação Esparsos Aprendíveis para Direcionamento em Adaptação de Domínio

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

Resumo

Support