Steer2Edit: Van Activatiesturing naar Componentniveau Bewerking

Samenvatting

Stuurmethoden beïnvloeden het gedrag van grote taalmodel(len) door het identificeren van semantische richtingen in verborgen representaties, maar worden doorgaans gerealiseerd via interventies in activaties tijdens de inferentiefase, waarbij een vaste, globale modificatie wordt toegepast op de interne toestanden van het model. Hoewel effectief, veroorzaken dergelijke interventies vaak ongunstige afwegingen tussen attribuut en functionaliteit onder sterke controle, omdat ze het feit negeren dat veel gedragingen worden bepaald door een kleine en heterogene subset van modelcomponenten. Wij stellen Steer2Edit voor, een theoretisch onderbouwd, trainingsvrij raamwerk dat stuurvectoren transformeert van controle-signalen tijdens inferentie naar diagnostische signalen voor gewichtsbewerking op componentniveau (rang-1). In plaats van uniform een stuurrichting te injecteren tijdens de generatie, herverdeelt Steer2Edit selectief de gedragsbeïnvloeding over individuele aandachtskoppen en MLP-neuronen, wat interpreteerbare bewerkingen oplevert die de standaard voorwaartse pass behouden en compatibel blijven met geoptimaliseerde parallelle inferentie. Op het gebied van veiligheidsafstemming, het beperken van hallucinaties en redeneerefficiëntie behaalt Steer2Edit consistent gunstigere afwegingen tussen attribuut en functionaliteit: bij gelijke downstream-prestaties verbetert het de veiligheid met tot 17,2%, verhoogt het de waarheidsgetrouwheid met 9,8% en vermindert het de redeneerlengte gemiddeld met 12,2%. Over het algemeen biedt Steer2Edit een principiële brug tussen representatiesturing en gewichtsbewerking door stuursignalen te vertalen naar interpreteerbare, trainingsvrije parameter-updates.

English

Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.

Steer2Edit: Van Activatiesturing naar Componentniveau Bewerking

Steer2Edit: From Activation Steering to Component-Level Editing

Samenvatting

Support