ChatPaper.aiChatPaper

YaPO: Обучаемые разреженные векторы управления активацией для адаптации домена

YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation

January 13, 2026
Авторы: Abdelaziz Bounhar, Rania Hossam Elmohamady Elbadry, Hadi Abdine, Preslav Nakov, Michalis Vazirgiannis, Guokan Shang
cs.AI

Аннотация

Управление большими языковыми моделями (LLM) с помощью интервенций на уровне активаций стало легковесной альтернативой тонкой настройке для решения задач согласования и персонализации. Недавние работы по двунаправленной оптимизации предпочтений (BiPO) показали, что плотные векторы управления можно обучать непосредственно на данных о предпочтениях по аналогии с методом прямой оптимизации предпочтений (DPO), что позволяет контролировать правдивость, склонность к галлюцинациям и безопасное поведение. Однако плотные векторы управления часто объединяют несколько латентных факторов из-за многозначности нейронов, что ограничивает их эффективность и стабильность в задачах тонкого контроля, таких как культурная адаптация, где необходимо различать тесно связанные ценности и модели поведения (например, среди ближневосточных культур). В данной статье мы предлагаем «Еще одну политику оптимизации» (YaPO) — метод без опорной модели, который обучает разреженные векторы управления в латентном пространстве разреженного автоэнкодера (SAE). Оптимизируя разреженные коды, YaPO создает развязанные, интерпретируемые и эффективные направления управления. Экспериментально мы демонстрируем, что YaPO сходится быстрее, достигает более высокой производительности и обладает улучшенной стабильностью обучения по сравнению с базовыми методами на основе плотных векторов. Помимо культурной адаптации, YaPO обобщается на широкий спектр задач согласования, включая контроль галлюцинаций, стремление к богатству, взлом защит (jailbreak) и стремление к власти. Важно, что YaPO сохраняет общие знания без измеримой деградации на benchmark MMLU. В целом наши результаты показывают, что YaPO предлагает универсальный рецепт для эффективного, стабильного и тонкого согласования LLM с широкими возможностями применения в области управляемости и адаптации к доменам. Связанный код и данные находятся в открытом доступе: https://github.com/MBZUAI-Paris/YaPO.
English
Steering Large Language Models (LLMs) through activation interventions has emerged as a lightweight alternative to fine-tuning for alignment and personalization. Recent work on Bi-directional Preference Optimization (BiPO) shows that dense steering vectors can be learned directly from preference data in a Direct Preference Optimization (DPO) fashion, enabling control over truthfulness, hallucinations, and safety behaviors. However, dense steering vectors often entangle multiple latent factors due to neuron multi-semanticity, limiting their effectiveness and stability in fine-grained settings such as cultural alignment, where closely related values and behaviors (e.g., among Middle Eastern cultures) must be distinguished. In this paper, we propose Yet another Policy Optimization (YaPO), a reference-free method that learns sparse steering vectors in the latent space of a Sparse Autoencoder (SAE). By optimizing sparse codes, YaPO produces disentangled, interpretable, and efficient steering directions. Empirically, we show that YaPO converges faster, achieves stronger performance, and exhibits improved training stability compared to dense steering baselines. Beyond cultural alignment, YaPO generalizes to a range of alignment-related behaviors, including hallucination, wealth-seeking, jailbreak, and power-seeking. Importantly, YaPO preserves general knowledge, with no measurable degradation on MMLU. Overall, our results show that YaPO provides a general recipe for efficient, stable, and fine-grained alignment of LLMs, with broad applications to controllability and domain adaptation. The associated code and data are publicly availablehttps://github.com/MBZUAI-Paris/YaPO.
PDF52January 21, 2026