Steer2Edit: Von der Aktivierungssteuerung zur Komponentenebenen-Bearbeitung

papers.abstract

Steuerungsmethoden beeinflussen das Verhalten von Large Language Models, indem sie semantische Richtungen in verborgenen Repräsentationen identifizieren, werden jedoch typischerweise durch Aktivierungsinterventionen zur Inferenzzeit realisiert, die eine feste, globale Modifikation der internen Zustände des Modells anwenden. Obwohl wirksam, führen solche Eingriffe oft zu ungünstigen Attribut-Nutzen-Kompromissen bei starker Kontrolle, da sie ignorieren, dass viele Verhaltensweisen durch eine kleine und heterogene Teilmenge von Modellkomponenten gesteuert werden. Wir schlagen Steer2Edit vor, einen theoretisch fundierten, trainingsfreien Rahmen, der Steuerungsvektoren von Inferenzzeit-Steuersignalen in diagnostische Signale für komponentenbasierte Rang-1-Gewichtseditierung transformiert. Anstatt eine Steuerungsrichtung während der Generierung uniform zu injizieren, verteilt Steer2Edit Verhaltenseinflüsse selektiv über einzelne Attention-Heads und MLP-Neuronen um und erzeugt interpretierbare Editierungen, die den standardmäßigen Vorwärtsdurchlauf beibehalten und mit optimierter paralleler Inferenz kompatibel bleiben. In den Bereichen Sicherheitsausrichtung, Halluzinationsreduzierung und Reasoning-Effizienz erzielt Steer2Edit durchgängig günstigere Attribut-Nutzen-Kompromisse: bei gleicher Downstream-Leistung verbessert es die Sicherheit um bis zu 17,2%, steigert die Wahrhaftigkeit um 9,8% und reduziert die Reasoning-Länge im Durchschnitt um 12,2%. Insgesamt schlägt Steer2Edit eine principled Brücke zwischen Repräsentationssteuerung und Gewichtseditierung, indem es Steuerungssignale in interpretierbare, trainingsfreie Parameterupdates übersetzt.

English

Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.

Steer2Edit: Von der Aktivierungssteuerung zur Komponentenebenen-Bearbeitung

Steer2Edit: From Activation Steering to Component-Level Editing

papers.abstract

Support