ChatPaper.aiChatPaper

Permutabilité Mécaniste : Faire Correspondre les Caractéristiques à Travers les Couches

Mechanistic Permutability: Match Features Across Layers

October 10, 2024
Auteurs: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI

Résumé

Comprendre comment les caractéristiques évoluent à travers les couches des réseaux neuronaux profonds est un défi fondamental en termes d'interprétabilité mécaniste, en particulier en raison de la polysémie et de la superposition des caractéristiques. Alors que les autoencodeurs parcimonieux (SAEs) ont été utilisés pour extraire des caractéristiques interprétables des couches individuelles, l'alignement de ces caractéristiques à travers les couches est resté un problème ouvert. Dans cet article, nous présentons SAE Match, une nouvelle méthode sans données pour aligner les caractéristiques des SAE à travers différentes couches d'un réseau neuronal. Notre approche implique d'aligner les caractéristiques en minimisant l'erreur quadratique moyenne entre les paramètres pliés des SAE, une technique qui intègre les seuils d'activation dans les poids de l'encodeur et du décodeur pour prendre en compte les différences d'échelle des caractéristiques. À travers des expériences approfondies sur le modèle de langage Gemma 2, nous démontrons que notre méthode capture efficacement l'évolution des caractéristiques à travers les couches, améliorant la qualité de l'alignement des caractéristiques. Nous montrons également que les caractéristiques persistent sur plusieurs couches et que notre approche peut approximer les états cachés à travers les couches. Notre travail fait progresser la compréhension de la dynamique des caractéristiques dans les réseaux neuronaux et fournit un nouvel outil pour les études d'interprétabilité mécaniste.
English
Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies.

Summary

AI-Generated Summary

PDF192November 16, 2024