Permutabilidade Mecânica: Corresponder Características Entre Camadas

Resumo

Compreender como as características evoluem através das camadas em redes neurais profundas é um desafio fundamental em interpretabilidade mecanicista, especialmente devido à polissemia e sobreposição de características. Enquanto Autoencoders Esparsos (SAEs) têm sido usados para extrair características interpretáveis de camadas individuais, alinhar essas características entre camadas tem permanecido um problema em aberto. Neste artigo, apresentamos o SAE Match, um método inovador e sem necessidade de dados para alinhar características de SAE em diferentes camadas de uma rede neural. Nossa abordagem envolve combinar características minimizando o erro quadrático médio entre os parâmetros dobrados dos SAEs, uma técnica que incorpora limiares de ativação nos pesos do codificador e decodificador para considerar diferenças nas escalas das características. Através de experimentos extensivos no modelo de linguagem Gemma 2, demonstramos que nosso método captura efetivamente a evolução das características entre camadas, melhorando a qualidade do alinhamento das características. Também mostramos que as características persistem por várias camadas e que nossa abordagem pode aproximar estados ocultos entre camadas. Nosso trabalho avança a compreensão da dinâmica das características em redes neurais e fornece uma nova ferramenta para estudos de interpretabilidade mecanicista.

English

Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies.

Permutabilidade Mecânica: Corresponder Características Entre Camadas

Mechanistic Permutability: Match Features Across Layers

Resumo

Support