Por qué funciona el direccionamiento: Hacia una visión unificada de la dinámica de parámetros en modelos de lenguaje

Resumen

Los métodos para controlar modelos de lenguaje grandes (LLM), incluyendo el ajuste fino de pesos locales, la adaptación basada en LoRA y las intervenciones basadas en activaciones, a menudo se estudian de forma aislada, lo que oscurece sus conexiones y dificulta la comparación. En este trabajo, presentamos una visión unificada que enmarca estas intervenciones como actualizaciones dinámicas de pesos inducidas por una señal de control, situándolas dentro de un único marco conceptual. Basándonos en esta visión, proponemos un análisis unificado de preferencia-utilidad que separa los efectos de control en *preferencia*, definida como la tendencia hacia un concepto objetivo, y *utilidad*, definida como una generación coherente y válida para la tarea, y mide ambas en una escala compartida de log-probabilidades utilizando ejemplos contrastivos de polaridad opuesta. En todos los métodos, observamos una compensación consistente entre preferencia y utilidad: un control más fuerte aumenta la preferencia mientras reduce predeciblemente la utilidad. Explicamos además este comportamiento a través de una perspectiva del *manifold* de activaciones, en la cual el control desplaza las representaciones a lo largo de direcciones de concepto objetivo para mejorar la preferencia, mientras que la utilidad disminuye principalmente cuando las intervenciones empujan a las representaciones fuera del *manifold* de generación válida del modelo. Finalmente, presentamos un nuevo enfoque de direccionamiento llamado SPLIT, guiado por este análisis, que mejora la preferencia preservando mejor la utilidad. El código está disponible en https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

English

Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.