ChatPaper.aiChatPaper

YaPO: Vectores de Direccionamiento de Activación Dispersos Aprendibles para Adaptación de Dominio

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

January 13, 2026
Autores: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang
cs.AI

Resumen

La dirección de Modelos de Lenguaje Grandes (LLMs) mediante intervenciones en las activaciones ha surgido como una alternativa ligera al ajuste fino para la alineación y personalización. Trabajos recientes sobre Optimización de Preferencias Bidireccional (BiPO) demuestran que es posible aprender vectores de dirección densos directamente a partir de datos de preferencias, de manera similar a la Optimización Directa de Preferencias (DPO), lo que permite controlar la veracidad, las alucinaciones y los comportamientos de seguridad. Sin embargo, los vectores de dirección densos a menudo entrelazan múltiples factores latentes debido a la multi-semanticidad de las neuronas, lo que limita su efectividad y estabilidad en entornos de grano fino, como la alineación cultural, donde es necesario distinguir valores y comportamientos estrechamente relacionados (por ejemplo, entre culturas de Oriente Medio). En este artículo, proponemos Yet another Policy Optimization (YaPO), un método sin referencia que aprende vectores de dirección dispersos en el espacio latente de un Autoencoder Disperso (SAE). Al optimizar códigos dispersos, YaPO produce direcciones de dirección desenredadas, interpretables y eficientes. Empíricamente, demostramos que YaPO converge más rápido, logra un rendimiento más sólido y exhibe una estabilidad de entrenamiento mejorada en comparación con los métodos base que utilizan vectores densos. Más allá de la alineación cultural, YaPO se generaliza a una gama de comportamientos relacionados con la alineación, incluyendo alucinaciones, búsqueda de riqueza, jailbreak y búsqueda de poder. Es importante destacar que YaPO preserva el conocimiento general, sin mostrar degradación medible en MMLU. En general, nuestros resultados muestran que YaPO proporciona una receta general para la alineación eficiente, estable y de grano fino de los LLMs, con amplias aplicaciones en la controlabilidad y adaptación de dominio. El código y los datos asociados están disponibles públicamente en https://github.com/MBZUAI-Paris/YaPO.
English
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.
PDF52January 21, 2026