ChatPaper.aiChatPaper

Décomposition des activations de MLP en caractéristiques interprétables via la factorisation matricielle semi-non négative

Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization

June 12, 2025
Auteurs: Or Shafran, Atticus Geiger, Mor Geva
cs.AI

Résumé

Un objectif central de l'interprétabilité mécaniste a été d'identifier les bonnes unités d'analyse dans les grands modèles de langage (LLMs) qui expliquent causalement leurs sorties. Alors que les travaux initiaux se concentraient sur des neurones individuels, des preuves montrant que les neurones encodent souvent plusieurs concepts ont motivé un changement vers l'analyse des directions dans l'espace d'activation. Une question clé est de savoir comment trouver des directions qui capturent des caractéristiques interprétables de manière non supervisée. Les méthodes actuelles reposent sur l'apprentissage de dictionnaires avec des autoencodeurs parcimonieux (SAEs), généralement entraînés sur les activations du flux résiduel pour apprendre des directions à partir de zéro. Cependant, les SAEs rencontrent souvent des difficultés dans les évaluations causales et manquent d'interprétabilité intrinsèque, car leur apprentissage n'est pas explicitement lié aux calculs du modèle. Ici, nous abordons ces limitations en décomposant directement les activations des MLPs avec la factorisation matricielle semi-non négative (SNMF), de sorte que les caractéristiques apprises soient (a) des combinaisons linéaires parcimonieuses de neurones co-activés, et (b) mappées à leurs entrées activatrices, les rendant directement interprétables. Des expériences sur Llama 3.1, Gemma 2 et GPT-2 montrent que les caractéristiques dérivées de la SNMF surpassent les SAEs et une base de référence supervisée forte (différence des moyennes) en matière de pilotage causal, tout en s'alignant sur des concepts interprétables par l'homme. Une analyse plus approfondie révèle que des combinaisons spécifiques de neurones sont réutilisées à travers des caractéristiques sémantiquement liées, exposant une structure hiérarchique dans l'espace d'activation des MLPs. Ensemble, ces résultats positionnent la SNMF comme un outil simple et efficace pour identifier des caractéristiques interprétables et disséquer les représentations de concepts dans les LLMs.
English
A central goal for mechanistic interpretability has been to identify the right units of analysis in large language models (LLMs) that causally explain their outputs. While early work focused on individual neurons, evidence that neurons often encode multiple concepts has motivated a shift toward analyzing directions in activation space. A key question is how to find directions that capture interpretable features in an unsupervised manner. Current methods rely on dictionary learning with sparse autoencoders (SAEs), commonly trained over residual stream activations to learn directions from scratch. However, SAEs often struggle in causal evaluations and lack intrinsic interpretability, as their learning is not explicitly tied to the computations of the model. Here, we tackle these limitations by directly decomposing MLP activations with semi-nonnegative matrix factorization (SNMF), such that the learned features are (a) sparse linear combinations of co-activated neurons, and (b) mapped to their activating inputs, making them directly interpretable. Experiments on Llama 3.1, Gemma 2 and GPT-2 show that SNMF derived features outperform SAEs and a strong supervised baseline (difference-in-means) on causal steering, while aligning with human-interpretable concepts. Further analysis reveals that specific neuron combinations are reused across semantically-related features, exposing a hierarchical structure in the MLP's activation space. Together, these results position SNMF as a simple and effective tool for identifying interpretable features and dissecting concept representations in LLMs.
PDF32June 13, 2025