ChatPaper.aiChatPaper

Des directions aux régions : décomposer les activations dans les modèles de langage via la géométrie locale

From Directions to Regions: Decomposing Activations in Language Models via Local Geometry

February 2, 2026
papers.authors: Or Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva
cs.AI

papers.abstract

Les méthodes de décomposition d'activation dans les modèles de langage sont étroitement liées à des hypothèses géométriques sur la manière dont les concepts se matérialisent dans l'espace d'activation. Les approches existantes recherchent des directions globales individuelles, supposant implicitement une séparabilité linéaire, ce qui néglige les concepts ayant une structure non linéaire ou multidimensionnelle. Dans ce travail, nous utilisons les Mélanges d'Analyseurs Factoriels (MFA) comme alternative non supervisée et évolutive, modélisant l'espace d'activation comme une collection de régions gaussiennes avec leur structure de covariance locale. Les MFA décomposent les activations en deux objets géométriques compositionnels : le centroïde de la région dans l'espace d'activation, et la variation locale par rapport à ce centroïde. Nous entraînons des MFA à grande échelle pour Llama-3.1-8B et Gemma-2-2B, et montrons qu'ils capturent des structures complexes et non linéaires dans l'espace d'activation. De plus, les évaluations sur des benchmarks de localisation et de pilotage montrent que les MFA surpassent les méthodes de référence non supervisées, sont compétitifs avec les méthodes de localisation supervisées, et obtiennent souvent de meilleures performances de pilotage que les autoencodeurs épars. Ensemble, nos résultats positionnent la géométrie locale, exprimée via des sous-espaces, comme une unité d'analyse prometteuse pour la découverte évolutive de concepts et le contrôle des modèles, en tenant compte des structures complexes que les directions isolées échouent à capturer.
English
Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.
PDF31February 12, 2026