Механистическая перестановочность: сопоставление характеристик между слоями
Mechanistic Permutability: Match Features Across Layers
October 10, 2024
Авторы: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI
Аннотация
Понимание того, как признаки эволюционируют через слои в глубоких нейронных сетях, является фундаментальным вызовом в механистической интерпретации, особенно из-за полисемантики и наложения признаков. В то время как Разреженные автокодировщики (SAE) использовались для извлечения интерпретируемых признаков из отдельных слоев, выравнивание этих признаков через слои оставалось открытой проблемой. В данной статье мы представляем SAE Match, новый метод без использования данных для выравнивания признаков SAE через различные слои нейронной сети. Наш подход включает сопоставление признаков путем минимизации среднеквадратичной ошибки между сложенными параметрами SAE, техника, которая включает пороги активации в веса энкодера и декодера для учета различий в масштабах признаков. Через обширные эксперименты на языковой модели Gemma 2 мы демонстрируем, что наш метод эффективно улавливает эволюцию признаков через слои, улучшая качество сопоставления признаков. Мы также показываем, что признаки сохраняются на протяжении нескольких слоев и что наш подход может приближать скрытые состояния через слои. Наша работа продвигает понимание динамики признаков в нейронных сетях и предоставляет новый инструмент для исследований механистической интерпретируемости.
English
Understanding how features evolve across layers in deep neural networks is a
fundamental challenge in mechanistic interpretability, particularly due to
polysemanticity and feature superposition. While Sparse Autoencoders (SAEs)
have been used to extract interpretable features from individual layers,
aligning these features across layers has remained an open problem. In this
paper, we introduce SAE Match, a novel, data-free method for aligning SAE
features across different layers of a neural network. Our approach involves
matching features by minimizing the mean squared error between the folded
parameters of SAEs, a technique that incorporates activation thresholds into
the encoder and decoder weights to account for differences in feature scales.
Through extensive experiments on the Gemma 2 language model, we demonstrate
that our method effectively captures feature evolution across layers, improving
feature matching quality. We also show that features persist over several
layers and that our approach can approximate hidden states across layers. Our
work advances the understanding of feature dynamics in neural networks and
provides a new tool for mechanistic interpretability studies.Summary
AI-Generated Summary