Waarom Sturing Werkt: Op Weg naar een Geünificeerd Inzicht in de Parameterdynamiek van Taalmodellen

Samenvatting

Methoden voor het beheersen van grote taalmmodellen (LLM's), waaronder lokale gewichtsfinetuning, LoRA-gebaseerde aanpassing en op activatie gebaseerde interventies, worden vaak geïsoleerd bestudeerd. Dit verhult hun onderlinge verbanden en maakt vergelijking moeilijk. In dit werk presenteren we een verenigde visie die deze interventies beschouwt als dynamische gewichtsupdates veroorzaakt door een stuursignaal, en plaatst ze binnen een enkel conceptueel kader. Voortbouwend op deze visie introduceren we een verenigde preferentie-utiliteitsanalyse die stuur-effecten scheidt in *preferentie* (gedefinieerd als de neiging naar een doelconcept) en *utiliteit* (gedefinieerd als coherente en taak-valide generatie), en meet beide op een gedeelde log-odds-schaal met behulp van polarity-gepaarde contrastieve voorbeelden. Over alle methoden heen observeren we een consistente afweging tussen preferentie en utiliteit: sterkere sturing verhoogt de preferentie, maar vermindert voorspelbaar de utiliteit. We verklaren dit gedrag verder via een perspectief van activatie-variëteiten, waarin sturing representaties verschuift langs doelconcept-richtingen om preferentie te versterken, terwijl utiliteit voornamelijk afneemt wanneer interventies representaties van de variëteit van valide generatie van het model duwen. Ten slotte introduceren we een nieuwe stuurmethode, SPLIT, geleid door deze analyse, die de preferentie verbetert en tegelijkertijd de utiliteit beter behoudt. Code is beschikbaar op https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

English

Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.

Waarom Sturing Werkt: Op Weg naar een Geünificeerd Inzicht in de Parameterdynamiek van Taalmodellen

Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

Samenvatting

Support