De Direcciones a Regiones: Descomposición de Activaciones en Modelos de Lenguaje mediante Geometría Local
From Directions to Regions: Decomposing Activations in Language Models via Local Geometry
February 2, 2026
Autores: Or Shafran, Shaked Ronen, Omri Fahn, Shauli Ravfogel, Atticus Geiger, Mor Geva
cs.AI
Resumen
Los métodos de descomposición de activaciones en modelos de lenguaje están estrechamente vinculados a supuestos geométricos sobre cómo se materializan los conceptos en el espacio de activaciones. Los enfoques existentes buscan direcciones globales individuales, asumiendo implícitamente una separabilidad lineal, lo que pasa por alto conceptos con una estructura no lineal o multidimensional. En este trabajo, utilizamos Mezclas de Analizadores Factoriales (MFA) como una alternativa escalable y no supervisada que modela el espacio de activaciones como una colección de regiones gaussianas con su estructura de covarianza local. El MFA descompone las activaciones en dos objetos geométricos compositivos: el centroide de la región en el espacio de activaciones y la variación local desde el centroide. Entrenamos MFAs a gran escala para Llama-3.1-8B y Gemma-2-2B, y demostramos que capturan estructuras complejas y no lineales en el espacio de activaciones. Además, las evaluaciones en benchmarks de localización y control muestran que el MFA supera a los métodos de base no supervisados, es competitivo con los métodos de localización supervisados y, a menudo, logra un rendimiento de control más sólido que los autocodificadores dispersos. En conjunto, nuestros hallazgos posicionan la geometría local, expresada a través de subespacios, como una unidad de análisis prometedora para el descubrimiento escalable de conceptos y el control de modelos, teniendo en cuenta estructuras complejas que las direcciones aisladas no logran capturar.
English
Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.