Mechanistische Permutabilität: Merkmale über Schichten hinweg abgleichen
Mechanistic Permutability: Match Features Across Layers
October 10, 2024
Autoren: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI
Zusammenfassung
Das Verständnis, wie Merkmale in tiefen neuronalen Netzwerken über Schichten hinweg evolvieren, ist eine grundlegende Herausforderung in der mechanistischen Interpretierbarkeit, insbesondere aufgrund von Polysemie und Merkmalsüberlagerung. Während Sparse Autoencoder (SAE) verwendet wurden, um interpretierbare Merkmale aus einzelnen Schichten zu extrahieren, blieb das Ausrichten dieser Merkmale über Schichten hinweg ein offenes Problem. In diesem Paper stellen wir SAE Match vor, eine neuartige, datenfreie Methode zur Ausrichtung von SAE-Merkmalen über verschiedene Schichten eines neuronalen Netzwerks. Unser Ansatz beinhaltet das Abgleichen von Merkmalen durch Minimierung des mittleren quadratischen Fehlers zwischen den gefalteten Parametern von SAEs, eine Technik, die Aktivierungsschwellen in die Encoder- und Decoder-Gewichte einbezieht, um Unterschiede in den Merkmalskalen zu berücksichtigen. Durch umfangreiche Experimente am Gemma 2-Sprachmodell zeigen wir, dass unsere Methode die Merkmalsentwicklung über Schichten hinweg effektiv erfasst und die Qualität des Merkmalsabgleichs verbessert. Wir zeigen auch, dass Merkmale über mehrere Schichten hinweg bestehen bleiben und dass unser Ansatz versteckte Zustände über Schichten hinweg approximieren kann. Unsere Arbeit trägt zum Verständnis der Merkmalsdynamik in neuronalen Netzwerken bei und bietet ein neues Werkzeug für mechanistische Interpretierbarkeitsstudien.
English
Understanding how features evolve across layers in deep neural networks is a
fundamental challenge in mechanistic interpretability, particularly due to
polysemanticity and feature superposition. While Sparse Autoencoders (SAEs)
have been used to extract interpretable features from individual layers,
aligning these features across layers has remained an open problem. In this
paper, we introduce SAE Match, a novel, data-free method for aligning SAE
features across different layers of a neural network. Our approach involves
matching features by minimizing the mean squared error between the folded
parameters of SAEs, a technique that incorporates activation thresholds into
the encoder and decoder weights to account for differences in feature scales.
Through extensive experiments on the Gemma 2 language model, we demonstrate
that our method effectively captures feature evolution across layers, improving
feature matching quality. We also show that features persist over several
layers and that our approach can approximate hidden states across layers. Our
work advances the understanding of feature dynamics in neural networks and
provides a new tool for mechanistic interpretability studies.Summary
AI-Generated Summary