Pourquoi le pilotage fonctionne : vers une vision unifiée de la dynamique des paramètres des modèles de langage

Résumé

Les méthodes de contrôle des grands modèles de langage (LLM), incluant le fine-tuning local des poids, l'adaptation basée sur LoRA et les interventions par activation, sont souvent étudiées isolément, occultant leurs liens et rendant les comparaisons difficiles. Dans ce travail, nous présentons une vision unifiée qui cadre ces interventions comme des mises à jour dynamiques des poids induites par un signal de contrôle, les plaçant dans un cadre conceptuel unique. Sur cette base, nous proposons une analyse préférence-utilité unifiée qui sépare les effets de contrôle entre la préférence, définie comme la tendance vers un concept cible, et l'utilité, définie comme une génération cohérente et valide pour la tâche, en mesurant les deux sur une échelle commune de log-odds à l'aide d'exemples contrastifs à polarité opposée. Pour toutes les méthodes, nous observons un compromis constant entre préférence et utilité : un contrôle plus fort augmente la préférence tout en réduisant l'utilité de manière prévisible. Nous expliquons en outre ce comportement par une perspective des variétés d'activation, où le contrôle décale les représentations le long des directions du concept cible pour renforcer la préférence, tandis que l'utilité décline principalement lorsque les interventions poussent les représentations hors de la variété de génération valide du modèle. Enfin, nous introduisons une nouvelle approche de pilotage, SPLIT, guidée par cette analyse, qui améliore la préférence tout en préservant mieux l'utilité. Le code est disponible à l'adresse https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

English

Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

Pourquoi le pilotage fonctionne : vers une vision unifiée de la dynamique des paramètres des modèles de langage

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Résumé

Support