Apprenez aux anciens SAE de nouveaux tours de domaine avec le boosting
Teach Old SAEs New Domain Tricks with Boosting
July 17, 2025
papers.authors: Nikita Koriagin, Yaroslav Aksenov, Daniil Laptev, Gleb Gerasimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
papers.abstract
Les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) se sont imposés comme des outils puissants pour interpréter les représentations internes des modèles de langage de grande taille (Large Language Models, LLM). Cependant, ils échouent souvent à capturer des caractéristiques spécifiques à un domaine qui ne sont pas prédominantes dans leurs corpus d’entraînement. Cet article propose une approche d’apprentissage résiduel pour remédier à cette cécité aux caractéristiques sans nécessiter un réentraînement complet. Nous suggérons d’entraîner un SAE secondaire spécifiquement pour modéliser l’erreur de reconstruction d’un SAE préentraîné sur des textes spécifiques à un domaine, capturant ainsi efficacement les caractéristiques manquées par le modèle principal. En additionnant les sorties des deux modèles lors de l’inférence, nous démontrons des améliorations significatives à la fois en termes d’entropie croisée des LLM et de variance expliquée dans plusieurs domaines spécialisés. Nos expériences montrent que cette méthode intègre efficacement de nouvelles connaissances spécifiques à un domaine dans des SAE existants tout en maintenant leurs performances sur des tâches générales. Cette approche permet aux chercheurs d’améliorer sélectivement l’interprétabilité des SAE pour des domaines d’intérêt spécifiques, ouvrant de nouvelles perspectives pour une interprétabilité mécaniste ciblée des LLM.
English
Sparse Autoencoders have emerged as powerful tools for interpreting the
internal representations of Large Language Models, yet they often fail to
capture domain-specific features not prevalent in their training corpora. This
paper introduces a residual learning approach that addresses this feature
blindness without requiring complete retraining. We propose training a
secondary SAE specifically to model the reconstruction error of a pretrained
SAE on domain-specific texts, effectively capturing features missed by the
primary model. By summing the outputs of both models during inference, we
demonstrate significant improvements in both LLM cross-entropy and explained
variance metrics across multiple specialized domains. Our experiments show that
this method efficiently incorporates new domain knowledge into existing SAEs
while maintaining their performance on general tasks. This approach enables
researchers to selectively enhance SAE interpretability for specific domains of
interest, opening new possibilities for targeted mechanistic interpretability
of LLMs.