Het ontbinden van MLP-activaties in interpreteerbare kenmerken via Semi-Nonnegatieve Matrix Factorisatie
Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization
June 12, 2025
Auteurs: Or Shafran, Atticus Geiger, Mor Geva
cs.AI
Samenvatting
Een centraal doel van mechanistische interpreteerbaarheid is het identificeren van de juiste analyse-eenheden in grote taalmodellen (LLMs) die hun outputs causaal verklaren. Terwijl vroeger onderzoek zich richtte op individuele neuronen, heeft het bewijs dat neuronen vaak meerdere concepten coderen, een verschuiving gemotiveerd naar het analyseren van richtingen in de activatieruimte. Een belangrijke vraag is hoe richtingen te vinden die interpreteerbare kenmerken op een onbewaakte manier vastleggen. Huidige methoden vertrouwen op woordenboekleren met sparse autoencoders (SAEs), die doorgaans worden getraind over residustroomactivaties om richtingen vanaf nul te leren. SAEs hebben echter vaak moeite met causale evaluaties en missen intrinsieke interpreteerbaarheid, omdat hun leren niet expliciet gekoppeld is aan de berekeningen van het model. Hier pakken we deze beperkingen aan door MLP-activaties direct te ontbinden met semi-non-negatieve matrixfactorisatie (SNMF), zodat de geleerde kenmerken (a) sparse lineaire combinaties zijn van geactiveerde neuronen, en (b) gekoppeld zijn aan hun activerende inputs, waardoor ze direct interpreteerbaar zijn. Experimenten op Llama 3.1, Gemma 2 en GPT-2 laten zien dat SNMF-afgeleide kenmerken SAEs en een sterke bewaakte baseline (verschil-in-gemiddelden) overtreffen op causale sturing, terwijl ze aansluiten bij door mensen interpreteerbare concepten. Verdere analyse onthult dat specifieke neuroncombinaties worden hergebruikt over semantisch verwante kenmerken, wat een hiërarchische structuur in de activatieruimte van de MLP blootlegt. Samen positioneren deze resultaten SNMF als een eenvoudig en effectief hulpmiddel voor het identificeren van interpreteerbare kenmerken en het ontleden van conceptrepresentaties in LLMs.
English
A central goal for mechanistic interpretability has been to identify the
right units of analysis in large language models (LLMs) that causally explain
their outputs. While early work focused on individual neurons, evidence that
neurons often encode multiple concepts has motivated a shift toward analyzing
directions in activation space. A key question is how to find directions that
capture interpretable features in an unsupervised manner. Current methods rely
on dictionary learning with sparse autoencoders (SAEs), commonly trained over
residual stream activations to learn directions from scratch. However, SAEs
often struggle in causal evaluations and lack intrinsic interpretability, as
their learning is not explicitly tied to the computations of the model. Here,
we tackle these limitations by directly decomposing MLP activations with
semi-nonnegative matrix factorization (SNMF), such that the learned features
are (a) sparse linear combinations of co-activated neurons, and (b) mapped to
their activating inputs, making them directly interpretable. Experiments on
Llama 3.1, Gemma 2 and GPT-2 show that SNMF derived features outperform SAEs
and a strong supervised baseline (difference-in-means) on causal steering,
while aligning with human-interpretable concepts. Further analysis reveals that
specific neuron combinations are reused across semantically-related features,
exposing a hierarchical structure in the MLP's activation space. Together,
these results position SNMF as a simple and effective tool for identifying
interpretable features and dissecting concept representations in LLMs.