ChatPaper.aiChatPaper

Permutabilidad Mecánica: Coincidir Características a Través de Capas

Mechanistic Permutability: Match Features Across Layers

October 10, 2024
Autores: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI

Resumen

Comprender cómo evolucionan las características a lo largo de las capas en las redes neuronales profundas es un desafío fundamental en la interpretabilidad mecanicista, especialmente debido a la polisemanticidad y superposición de características. Si bien los Autoencoders Dispersos (SAEs) se han utilizado para extraer características interpretables de capas individuales, alinear estas características a lo largo de las capas ha seguido siendo un problema abierto. En este artículo, presentamos SAE Match, un método novedoso y sin datos para alinear características de SAE en diferentes capas de una red neuronal. Nuestro enfoque implica emparejar características minimizando el error cuadrático medio entre los parámetros plegados de los SAE, una técnica que incorpora umbrales de activación en los pesos del codificador y decodificador para tener en cuenta las diferencias en las escalas de características. A través de experimentos exhaustivos en el modelo de lenguaje Gemma 2, demostramos que nuestro método captura de manera efectiva la evolución de características a lo largo de las capas, mejorando la calidad del emparejamiento de características. También mostramos que las características persisten a lo largo de varias capas y que nuestro enfoque puede aproximar estados ocultos a lo largo de las capas. Nuestro trabajo avanza en la comprensión de la dinámica de características en redes neuronales y proporciona una nueva herramienta para estudios de interpretabilidad mecanicista.
English
Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies.

Summary

AI-Generated Summary

PDF192November 16, 2024