Une description géométrique de l'orientation des activations par décomposition en angle et norme

Résumé

Le pilotage linéaire des activations a gagné en popularité en tant que méthode simple et empiriquement efficace pour contrôler le comportement des modèles de langage. Plus récemment, des paradigmes de pilotage sphérique ont été proposés pour remédier aux limites des interventions additives, souvent motivés par l'hypothèse selon laquelle la norme des états cachés ne transporte pas d'informations pertinentes pour le concept. Dans ce travail, nous réexaminons cette hypothèse à travers une étude empirique contrôlée conçue pour dissocier les rôles des composantes angulaire et radiale. Nous montrons que les méthodes de pilotage diffèrent principalement par la façon dont elles couplent deux effets géométriques : la modification de l'alignement angulaire d'un jeton avec une direction conceptuelle et la modification de sa norme d'état caché. À travers sept modèles de langage, nous constatons que les concepts sont principalement représentés dans la structure angulaire, ce qui soutient la motivation des méthodes sphériques, mais que la norme reste importante pour la stabilité et les effets en aval du pilotage. Nos résultats expliquent pourquoi des interventions ayant des effets similaires au niveau conceptuel peuvent se comporter différemment, et suggèrent que le pilotage des activations devrait être paramétré par des composantes angulaires et radiales interprétables de l'intervention, plutôt que par un unique coefficient additif qui entrelace ces deux effets.

English

Linear activation steering has gained popularity as a simple and empirically effective way to control language model behavior. More recently, spherical steering paradigms have been proposed to address limitations of additive interventions, often motivated by the assumption that hidden-state norm does not carry concept-relevant information. In this work, we revisit this assumption through a controlled empirical study designed to disentangle the roles of angular and radial components. We show that steering methods differ mainly in how they couple two geometric effects: changing a token's angular alignment with a concept direction and changing its hidden-state norm. Across seven language models, we find that concepts are represented primarily in angular structure, supporting the motivation for spherical methods, but that norm remains important for the stability and downstream effects of steering. Our results explain why interventions with similar concept-level effects can behave differently, and suggest that activation steering should be parameterized by interpretable angular and radial components of the intervention, rather than by a single additive coefficient that entangles these two effects.