ChatPaper.aiChatPaper

Mechanistische Permuteerbaarheid: Kenmerken Overeenstemmen Tussen Lagen

Mechanistic Permutability: Match Features Across Layers

October 10, 2024
Auteurs: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov
cs.AI

Samenvatting

Het begrijpen van hoe kenmerken evolueren over lagen in diepe neurale netwerken is een fundamentele uitdaging in mechanismatische interpreteerbaarheid, met name vanwege polysemie en kenmerk-superpositie. Hoewel Schaarse Auto-encoders (SAE's) zijn gebruikt om interpreteerbare kenmerken uit individuele lagen te extraheren, is het uitlijnen van deze kenmerken over lagen heen een open probleem gebleven. In dit artikel introduceren we SAE Match, een nieuw, data-vrij methode voor het uitlijnen van SAE-kenmerken over verschillende lagen van een neuraal netwerk. Onze aanpak omvat het matchen van kenmerken door het minimaliseren van de gemiddelde kwadratische fout tussen de gevouwen parameters van SAE's, een techniek die activatiedrempels opneemt in de encoder- en decodergewichten om rekening te houden met verschillen in kenmerkschalen. Door uitgebreide experimenten uit te voeren op het Gemma 2 taalmodel, tonen we aan dat onze methode effectief kenmerkevolutie over lagen vastlegt, waardoor de kwaliteit van kenmerk-matching verbetert. We tonen ook aan dat kenmerken over meerdere lagen aanhouden en dat onze aanpak verborgen toestanden over lagen heen kan benaderen. Ons werk bevordert het begrip van kenmerkdynamiek in neurale netwerken en biedt een nieuw instrument voor mechanismatische interpreteerbaarheidsstudies.
English
Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies.

Summary

AI-Generated Summary

PDF192November 16, 2024