ChatPaper.aiChatPaper

Leer oude SAEs nieuwe domeintrucs met boosting

Teach Old SAEs New Domain Tricks with Boosting

July 17, 2025
Auteurs: Nikita Koriagin, Yaroslav Aksenov, Daniil Laptev, Gleb Gerasimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

Samenvatting

Sparse Autoencoders zijn krachtige hulpmiddelen gebleken voor het interpreteren van de interne representaties van Large Language Models, maar ze slagen er vaak niet in domeinspecifieke kenmerken vast te leggen die niet prominent aanwezig zijn in hun trainingscorpora. Dit artikel introduceert een residual learning-benadering die deze kenmerkonwetendheid aanpakt zonder volledige hertraining te vereisen. Wij stellen voor om een secundaire SAE specifiek te trainen om de reconstructiefout van een voorgetrainde SAE op domeinspecifieke teksten te modelleren, waardoor kenmerken die door het primaire model worden gemist effectief worden vastgelegd. Door de uitvoer van beide modellen tijdens inferentie op te tellen, laten we significante verbeteringen zien in zowel de kruisentropie van LLM als de verklaarde variantie-metingen over meerdere gespecialiseerde domeinen. Onze experimenten tonen aan dat deze methode efficiënt nieuwe domeinkennis in bestaande SAE's integreert, terwijl hun prestaties op algemene taken behouden blijven. Deze aanpak stelt onderzoekers in staat om de interpreteerbaarheid van SAE's selectief te verbeteren voor specifieke interessegebieden, wat nieuwe mogelijkheden opent voor gerichte mechanistische interpreteerbaarheid van LLM's.
English
Sparse Autoencoders have emerged as powerful tools for interpreting the internal representations of Large Language Models, yet they often fail to capture domain-specific features not prevalent in their training corpora. This paper introduces a residual learning approach that addresses this feature blindness without requiring complete retraining. We propose training a secondary SAE specifically to model the reconstruction error of a pretrained SAE on domain-specific texts, effectively capturing features missed by the primary model. By summing the outputs of both models during inference, we demonstrate significant improvements in both LLM cross-entropy and explained variance metrics across multiple specialized domains. Our experiments show that this method efficiently incorporates new domain knowledge into existing SAEs while maintaining their performance on general tasks. This approach enables researchers to selectively enhance SAE interpretability for specific domains of interest, opening new possibilities for targeted mechanistic interpretability of LLMs.
PDF111July 18, 2025