Perché il Pilotaggio Funziona: Verso una Visione Unificata della Dinamica dei Parametri nei Modelli Linguistici
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
February 2, 2026
Autori: Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I metodi per controllare i grandi modelli linguistici (LLM), inclusi il fine-tuning locale dei pesi, l'adattamento basato su LoRA e gli interventi basati sull'attivazione, sono spesso studiati in modo isolato, oscurando le loro connessioni e rendendo difficile il confronto. In questo lavoro, presentiamo una visione unificata che inquadra questi interventi come aggiornamenti dinamici dei pesi indotti da un segnale di controllo, collocandoli all'interno di un unico quadro concettuale. Basandoci su questa visione, proponiamo un'analisi unificata preferenza-utilità che separa gli effetti di controllo in preferenza, definita come la tendenza verso un concetto target, e utilità, definita come generazione coerente e valida per il compito, e misura entrambe su una scala condivisa di log-odds utilizzando esempi contrastivi a polarità opposta. Attraverso i vari metodi, osserviamo un compromesso costante tra preferenza e utilità: un controllo più forte aumenta la preferenza riducendo prevedibilmente l'utilità. Spieghiamo ulteriormente questo comportamento attraverso una prospettiva del manifold di attivazione, in cui il controllo sposta le rappresentazioni lungo le direzioni del concetto target per migliorare la preferenza, mentre l'utilità diminuisce principalmente quando gli interventi spingono le rappresentazioni al di fuori del manifold di generazione valida del modello. Infine, introduciamo un nuovo approccio di steering chiamato SPLIT, guidato da questa analisi, che migliora la preferenza preservando meglio l'utilità. Il codice è disponibile all'indirizzo https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
English
Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.