De Direções a Regiões: Decompondo Ativações em Modelos de Linguagem via Geometria Local

Resumo

Os métodos de decomposição de ativação em modelos de linguagem estão intimamente ligados a pressupostos geométricos sobre como os conceitos são realizados no espaço de ativação. As abordagens existentes buscam direções globais individuais, assumindo implicitamente a separabilidade linear, o que negligencia conceitos com estrutura não linear ou multidimensional. Neste trabalho, utilizamos Misturas de Analisadores Fatoriais (MFA) como uma alternativa escalável e não supervisionada que modela o espaço de ativação como uma coleção de regiões Gaussianas com sua estrutura de covariância local. O MFA decompõe as ativações em dois objetos geométricos composicionais: o centróide da região no espaço de ativação e a variação local em relação ao centróide. Treinamos MFAs em larga escala para os modelos Llama-3.1-8B e Gemma-2-2B e mostramos que eles capturam estruturas complexas e não lineares no espaço de ativação. Além disso, avaliações em benchmarks de localização e direcionamento mostram que o MFA supera as linhas de base não supervisionadas, é competitivo com métodos de localização supervisionados e frequentemente alcança desempenho de direcionamento superior ao dos autoencoders esparsos. Em conjunto, nossos resultados posicionam a geometria local, expressa por meio de subespaços, como uma unidade de análise promissora para a descoberta escalável de conceitos e o controle de modelos, levando em conta estruturas complexas que direções isoladas não conseguem capturar.

English

Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.

De Direções a Regiões: Decompondo Ativações em Modelos de Linguagem via Geometria Local

From Directions to Regions: Decomposing Activations in Language Models via Local Geometry

Resumo

Support