Steer2Edit : Du pilotage par activation à l'édition au niveau des composants

papers.abstract

Les méthodes de pilotage influencent le comportement des grands modèles de langage en identifiant des directions sémantiques dans les représentations internes, mais sont généralement matérialisées par des interventions d'activation lors de l'inférence qui appliquent une modification fixe et globale aux états internes du modèle. Bien qu'efficaces, ces interventions induisent souvent des compromis défavorables entre attributs et utilité sous un contrôle fort, car elles ignorent que de nombreux comportements sont régis par un sous-ensemble réduit et hétérogène de composants modélaires. Nous proposons Steer2Edit, un cadre théorique sans entraînement qui transforme les vecteurs de pilotage de signaux de contrôle d'inférence en signaux diagnostiques pour l'édition de poids de rang 1 au niveau composant. Au lieu d'injecter uniformément une direction de pilotage pendant la génération, Steer2Edit redistribue sélectivement l'influence comportementale à travers les têtes d'attention individuelles et les neurones MLP, produisant des modifications interprétables qui préservent la passe avant standard et restent compatibles avec l'inférence parallèle optimisée. Pour l'alignement de sécurité, l'atténuation des hallucinations et l'efficacité du raisonnement, Steer2Edit atteint systématiquement des compromis attributs-utilité plus favorables : à performance descendante équivalente, il améliore la sécurité jusqu'à 17,2%, augmente la véracité de 9,8% et réduit la longueur des raisonnements de 12,2% en moyenne. Globalement, Steer2Edit établit un pont théorique entre le pilotage des représentations et l'édition des poids en traduisant les signaux de pilotage en mises à jour paramétriques interprétables et sans entraînement.

English

Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.

Steer2Edit : Du pilotage par activation à l'édition au niveau des composants

Steer2Edit: From Activation Steering to Component-Level Editing

papers.abstract

Support