Permutabilité Mécaniste : Faire Correspondre les Caractéristiques à Travers les Couches
Mechanistic Permutability: Match Features Across Layers
October 10, 2024
Auteurs: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI
Résumé
Comprendre comment les caractéristiques évoluent à travers les couches des réseaux neuronaux profonds est un défi fondamental en termes d'interprétabilité mécaniste, en particulier en raison de la polysémie et de la superposition des caractéristiques. Alors que les autoencodeurs parcimonieux (SAEs) ont été utilisés pour extraire des caractéristiques interprétables des couches individuelles, l'alignement de ces caractéristiques à travers les couches est resté un problème ouvert. Dans cet article, nous présentons SAE Match, une nouvelle méthode sans données pour aligner les caractéristiques des SAE à travers différentes couches d'un réseau neuronal. Notre approche implique d'aligner les caractéristiques en minimisant l'erreur quadratique moyenne entre les paramètres pliés des SAE, une technique qui intègre les seuils d'activation dans les poids de l'encodeur et du décodeur pour prendre en compte les différences d'échelle des caractéristiques. À travers des expériences approfondies sur le modèle de langage Gemma 2, nous démontrons que notre méthode capture efficacement l'évolution des caractéristiques à travers les couches, améliorant la qualité de l'alignement des caractéristiques. Nous montrons également que les caractéristiques persistent sur plusieurs couches et que notre approche peut approximer les états cachés à travers les couches. Notre travail fait progresser la compréhension de la dynamique des caractéristiques dans les réseaux neuronaux et fournit un nouvel outil pour les études d'interprétabilité mécaniste.
English
Understanding how features evolve across layers in deep neural networks is a
fundamental challenge in mechanistic interpretability, particularly due to
polysemanticity and feature superposition. While Sparse Autoencoders (SAEs)
have been used to extract interpretable features from individual layers,
aligning these features across layers has remained an open problem. In this
paper, we introduce SAE Match, a novel, data-free method for aligning SAE
features across different layers of a neural network. Our approach involves
matching features by minimizing the mean squared error between the folded
parameters of SAEs, a technique that incorporates activation thresholds into
the encoder and decoder weights to account for differences in feature scales.
Through extensive experiments on the Gemma 2 language model, we demonstrate
that our method effectively captures feature evolution across layers, improving
feature matching quality. We also show that features persist over several
layers and that our approach can approximate hidden states across layers. Our
work advances the understanding of feature dynamics in neural networks and
provides a new tool for mechanistic interpretability studies.Summary
AI-Generated Summary