Warum Lenkung funktioniert: Auf dem Weg zu einem einheitlichen Verständnis der Parameterdynamik in Sprachmodellen

Zusammenfassung

Methoden zur Steuerung großer Sprachmodelle (LLMs), einschließlich lokaler Gewichts-Finetuning, LoRA-basierter Anpassung und aktivierungsbasierter Interventionen, werden häufig isoliert untersucht, was ihre Verbindungen verschleiert und einen Vergleich erschwert. In dieser Arbeit präsentieren wir eine einheitliche Sichtweise, die diese Interventionen als dynamische Gewichtsaktualisierungen durch ein Steuersignal darstellt und sie in einen einzigen konzeptuellen Rahmen einordnet. Aufbauend auf dieser Sichtweise schlagen wir eine einheitliche Präferenz-Nutzen-Analyse vor, die Steuerungseffekte in Präferenz (definiert als Tendenz zu einem Zielkonzept) und Nutzen (definiert als kohärente und aufgabengültige Generierung) trennt und beide auf einer gemeinsamen Log-Odds-Skala mittels polaritätsgepaarter kontrastiver Beispiele misst. Über alle Methoden hinweg beobachten wir einen konsistenten Zielkonflikt zwischen Präferenz und Nutzen: Stärkere Steuerung erhöht die Präferenz, verringert aber vorhersehbar den Nutzen. Wir erklären dieses Verhalten weiter durch eine Aktivierungsmannigfaltigkeits-Perspektive, bei der Steuerung Repräsentationen entlang von Zielkonzept-Richtungen verschiebt, um die Präferenz zu erhöhen, während der Nutzen primär dann abnimmt, wenn Interventionen Repräsentationen von der gültigkeitserhaltenden Generierungsmannigfaltigkeit des Modells wegdrücken. Schließlich stellen wir einen neuen Steuerungsansatz namens SPLIT vor, der von dieser Analyse geleitet wird und die Präferenz verbessert, während der Nutzen besser erhalten bleibt. Code ist verfügbar unter https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

English

Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

Warum Lenkung funktioniert: Auf dem Weg zu einem einheitlichen Verständnis der Parameterdynamik in Sprachmodellen

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Zusammenfassung

Support