Почему работает управление: к единому взгляду на динамику параметров языковых моделей
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
February 2, 2026
Авторы: Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
Методы управления большими языковыми моделями (БЯМ), включая локальную тонкую настройку весов, адаптацию на основе LoRA и интервенции на уровне активаций, часто изучаются изолированно, что затуманивает их взаимосвязи и затрудняет сравнение. В данной работе мы представляем унифицированный взгляд, который трактует эти интервенции как динамические обновления весов, индуцированные управляющим сигналом, помещая их в единую концептуальную схему. Основываясь на этом подходе, мы предлагаем унифицированный анализ "предпочтение-полезность", который разделяет эффекты управления на предпочтение (определяемое как тенденция к целевому концепту) и полезность (определяемую как согласованная и релевантная задаче генерация), и измеряет обе величины в общей логарифмической шкале с использованием контрастных примеров с парной полярностью. Для всех методов мы наблюдаем последовательный компромисс между предпочтением и полезностью: усиление контроля увеличивает предпочтение, но предсказуемо снижает полезность. Мы далее объясняем это поведение через перспективу многообразия активаций, в которой контроль смещает репрезентации вдоль направлений целевого концепта для усиления предпочтения, тогда как полезность снижается в основном, когда интервенции выталкивают репрезентации за пределы многообразия валидной генерации модели. Наконец, мы представляем новый метод управления SPLIT, разработанный на основе этого анализа, который улучшает предпочтение, лучше сохраняя полезность. Код доступен по адресу https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
English
Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.