Dalle Direzioni alle Regioni: Scomporre le Attivazioni nei Modelli Linguistici tramite Geometria Locale

Abstract

I metodi di decomposizione delle attivazioni nei modelli linguistici sono strettamente legati ad assunzioni geometriche su come i concetti si realizzano nello spazio delle attivazioni. Gli approcci esistenti cercano singole direzioni globali, assumendo implicitamente la separabilità lineare, il che trascura i concetti con struttura non lineare o multidimensionale. In questo lavoro, utilizziamo le Miscele di Analizzatori Fattoriali (MFA) come alternativa scalabile e non supervisionata che modella lo spazio delle attivazioni come una collezione di regioni gaussiane con la loro struttura di covarianza locale. Le MFA scompongono le attivazioni in due oggetti geometrici compositivi: il centroide della regione nello spazio delle attivazioni e la variazione locale dal centroide. Addestriamo MFA su larga scala per Llama-3.1-8B e Gemma-2-2B, e dimostriamo che esse catturano strutture complesse e non lineari nello spazio delle attivazioni. Inoltre, le valutazioni su benchmark di localizzazione e steering mostrano che le MFA superano i baseline non supervisionati, sono competitive con i metodi di localizzazione supervisionati e spesso raggiungono prestazioni di steering più robuste degli autoencoder sparsi. Nel complesso, i nostri risultati posizionano la geometria locale, espressa attraverso sottospazi, come un'unità di analisi promettente per la scoperta scalabile di concetti e il controllo del modello, tenendo conto di strutture complesse che le direzioni isolate non riescono a catturare.

English

Activation decomposition methods in language models are tightly coupled to geometric assumptions on how concepts are realized in activation space. Existing approaches search for individual global directions, implicitly assuming linear separability, which overlooks concepts with nonlinear or multi-dimensional structure. In this work, we leverage Mixture of Factor Analyzers (MFA) as a scalable, unsupervised alternative that models the activation space as a collection of Gaussian regions with their local covariance structure. MFA decomposes activations into two compositional geometric objects: the region's centroid in activation space, and the local variation from the centroid. We train large-scale MFAs for Llama-3.1-8B and Gemma-2-2B, and show they capture complex, nonlinear structures in activation space. Moreover, evaluations on localization and steering benchmarks show that MFA outperforms unsupervised baselines, is competitive with supervised localization methods, and often achieves stronger steering performance than sparse autoencoders. Together, our findings position local geometry, expressed through subspaces, as a promising unit of analysis for scalable concept discovery and model control, accounting for complex structures that isolated directions fail to capture.

Dalle Direzioni alle Regioni: Scomporre le Attivazioni nei Modelli Linguistici tramite Geometria Locale

From Directions to Regions: Decomposing Activations in Language Models via Local Geometry

Abstract

Support