ChatPaper.aiChatPaper

Het ontbinden van MLP-activaties in interpreteerbare kenmerken via Semi-Nonnegatieve Matrix Factorisatie

Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization

June 12, 2025
Auteurs: Or Shafran, Atticus Geiger, Mor Geva
cs.AI

Samenvatting

Een centraal doel van mechanistische interpreteerbaarheid is het identificeren van de juiste analyse-eenheden in grote taalmodellen (LLMs) die hun outputs causaal verklaren. Terwijl vroeger onderzoek zich richtte op individuele neuronen, heeft het bewijs dat neuronen vaak meerdere concepten coderen, een verschuiving gemotiveerd naar het analyseren van richtingen in de activatieruimte. Een belangrijke vraag is hoe richtingen te vinden die interpreteerbare kenmerken op een onbewaakte manier vastleggen. Huidige methoden vertrouwen op woordenboekleren met sparse autoencoders (SAEs), die doorgaans worden getraind over residustroomactivaties om richtingen vanaf nul te leren. SAEs hebben echter vaak moeite met causale evaluaties en missen intrinsieke interpreteerbaarheid, omdat hun leren niet expliciet gekoppeld is aan de berekeningen van het model. Hier pakken we deze beperkingen aan door MLP-activaties direct te ontbinden met semi-non-negatieve matrixfactorisatie (SNMF), zodat de geleerde kenmerken (a) sparse lineaire combinaties zijn van geactiveerde neuronen, en (b) gekoppeld zijn aan hun activerende inputs, waardoor ze direct interpreteerbaar zijn. Experimenten op Llama 3.1, Gemma 2 en GPT-2 laten zien dat SNMF-afgeleide kenmerken SAEs en een sterke bewaakte baseline (verschil-in-gemiddelden) overtreffen op causale sturing, terwijl ze aansluiten bij door mensen interpreteerbare concepten. Verdere analyse onthult dat specifieke neuroncombinaties worden hergebruikt over semantisch verwante kenmerken, wat een hiërarchische structuur in de activatieruimte van de MLP blootlegt. Samen positioneren deze resultaten SNMF als een eenvoudig en effectief hulpmiddel voor het identificeren van interpreteerbare kenmerken en het ontleden van conceptrepresentaties in LLMs.
English
A central goal for mechanistic interpretability has been to identify the right units of analysis in large language models (LLMs) that causally explain their outputs. While early work focused on individual neurons, evidence that neurons often encode multiple concepts has motivated a shift toward analyzing directions in activation space. A key question is how to find directions that capture interpretable features in an unsupervised manner. Current methods rely on dictionary learning with sparse autoencoders (SAEs), commonly trained over residual stream activations to learn directions from scratch. However, SAEs often struggle in causal evaluations and lack intrinsic interpretability, as their learning is not explicitly tied to the computations of the model. Here, we tackle these limitations by directly decomposing MLP activations with semi-nonnegative matrix factorization (SNMF), such that the learned features are (a) sparse linear combinations of co-activated neurons, and (b) mapped to their activating inputs, making them directly interpretable. Experiments on Llama 3.1, Gemma 2 and GPT-2 show that SNMF derived features outperform SAEs and a strong supervised baseline (difference-in-means) on causal steering, while aligning with human-interpretable concepts. Further analysis reveals that specific neuron combinations are reused across semantically-related features, exposing a hierarchical structure in the MLP's activation space. Together, these results position SNMF as a simple and effective tool for identifying interpretable features and dissecting concept representations in LLMs.
PDF42June 13, 2025