Por que o Direcionamento Funciona: Rumo a uma Visão Unificada da Dinâmica de Parâmetros em Modelos de Linguagem
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
February 2, 2026
Autores: Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
cs.AI
Resumo
Métodos para controlar grandes modelos de linguagem (LLMs), incluindo o ajuste fino de pesos locais, a adaptação baseada em LoRA e as intervenções baseadas em ativação, são frequentemente estudados de forma isolada, obscurecendo suas conexões e dificultando a comparação. Neste trabalho, apresentamos uma visão unificada que enquadra essas intervenções como atualizações dinâmicas de pesos induzidas por um sinal de controle, colocando-as dentro de uma única estrutura conceitual. Com base nessa visão, propomos uma análise unificada de preferência-utilidade que separa os efeitos de controle em **preferência**, definida como a tendência em direção a um conceito-alvo, e **utilidade**, definida como geração coerente e válida para a tarefa, e mede ambas em uma escala compartilhada de *log-odds* usando exemplos contrastivos de polaridade oposta. Entre os métodos, observamos uma compensação consistente entre preferência e utilidade: um controle mais forte aumenta a preferência, ao mesmo tempo que reduz previsivelmente a utilidade. Explicamos ainda esse comportamento através de uma perspectiva do manifold de ativação, na qual o controle desloca as representações ao longo de direções do conceito-alvo para melhorar a preferência, enquanto a utilidade diminui principalmente quando as intervenções empurram as representações para fora do manifold de geração válida do modelo. Por fim, introduzimos uma nova abordagem de direcionamento chamada SPLIT, guiada por esta análise, que melhora a preferência enquanto preserva melhor a utilidade. O código está disponível em https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
English
Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.