Permutabilidade Mecânica: Corresponder Características Entre Camadas
Mechanistic Permutability: Match Features Across Layers
October 10, 2024
Autores: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI
Resumo
Compreender como as características evoluem através das camadas em redes neurais profundas é um desafio fundamental em interpretabilidade mecanicista, especialmente devido à polissemia e sobreposição de características. Enquanto Autoencoders Esparsos (SAEs) têm sido usados para extrair características interpretáveis de camadas individuais, alinhar essas características entre camadas tem permanecido um problema em aberto. Neste artigo, apresentamos o SAE Match, um método inovador e sem necessidade de dados para alinhar características de SAE em diferentes camadas de uma rede neural. Nossa abordagem envolve combinar características minimizando o erro quadrático médio entre os parâmetros dobrados dos SAEs, uma técnica que incorpora limiares de ativação nos pesos do codificador e decodificador para considerar diferenças nas escalas das características. Através de experimentos extensivos no modelo de linguagem Gemma 2, demonstramos que nosso método captura efetivamente a evolução das características entre camadas, melhorando a qualidade do alinhamento das características. Também mostramos que as características persistem por várias camadas e que nossa abordagem pode aproximar estados ocultos entre camadas. Nosso trabalho avança a compreensão da dinâmica das características em redes neurais e fornece uma nova ferramenta para estudos de interpretabilidade mecanicista.
English
Understanding how features evolve across layers in deep neural networks is a
fundamental challenge in mechanistic interpretability, particularly due to
polysemanticity and feature superposition. While Sparse Autoencoders (SAEs)
have been used to extract interpretable features from individual layers,
aligning these features across layers has remained an open problem. In this
paper, we introduce SAE Match, a novel, data-free method for aligning SAE
features across different layers of a neural network. Our approach involves
matching features by minimizing the mean squared error between the folded
parameters of SAEs, a technique that incorporates activation thresholds into
the encoder and decoder weights to account for differences in feature scales.
Through extensive experiments on the Gemma 2 language model, we demonstrate
that our method effectively captures feature evolution across layers, improving
feature matching quality. We also show that features persist over several
layers and that our approach can approximate hidden states across layers. Our
work advances the understanding of feature dynamics in neural networks and
provides a new tool for mechanistic interpretability studies.Summary
AI-Generated Summary