ChatPaper.aiChatPaper

Bringen Sie alten SAEs neue Domänentricks mit Boosting bei

Teach Old SAEs New Domain Tricks with Boosting

July 17, 2025
papers.authors: Nikita Koriagin, Yaroslav Aksenov, Daniil Laptev, Gleb Gerasimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

papers.abstract

Sparse Autoencoder haben sich als leistungsstarke Werkzeuge zur Interpretation der internen Repräsentationen von Large Language Models (LLMs) erwiesen, scheitern jedoch oft daran, domänenspezifische Merkmale zu erfassen, die in ihren Trainingskorpora nicht weit verbreitet sind. Dieses Papier stellt einen Residual-Learning-Ansatz vor, der diese Merkmalsblindheit adressiert, ohne ein vollständiges Neulernen zu erfordern. Wir schlagen vor, einen sekundären Sparse Autoencoder (SAE) speziell dazu zu trainieren, den Rekonstruktionsfehler eines vortrainierten SAE auf domänenspezifischen Texten zu modellieren, wodurch effektiv Merkmale erfasst werden, die vom primären Modell übersehen wurden. Durch die Summierung der Ausgaben beider Modelle während der Inferenz zeigen wir signifikante Verbesserungen sowohl in der Kreuzentropie der LLMs als auch in den erklärten Varianzmetriken über mehrere spezialisierte Domänen hinweg. Unsere Experimente zeigen, dass diese Methode neues Domänenwissen effizient in bestehende SAEs integriert, während deren Leistung bei allgemeinen Aufgaben erhalten bleibt. Dieser Ansatz ermöglicht es Forschern, die Interpretierbarkeit von SAEs gezielt für spezifische Interessensgebiete zu verbessern und eröffnet neue Möglichkeiten für eine zielgerichtete mechanistische Interpretierbarkeit von LLMs.
English
Sparse Autoencoders have emerged as powerful tools for interpreting the internal representations of Large Language Models, yet they often fail to capture domain-specific features not prevalent in their training corpora. This paper introduces a residual learning approach that addresses this feature blindness without requiring complete retraining. We propose training a secondary SAE specifically to model the reconstruction error of a pretrained SAE on domain-specific texts, effectively capturing features missed by the primary model. By summing the outputs of both models during inference, we demonstrate significant improvements in both LLM cross-entropy and explained variance metrics across multiple specialized domains. Our experiments show that this method efficiently incorporates new domain knowledge into existing SAEs while maintaining their performance on general tasks. This approach enables researchers to selectively enhance SAE interpretability for specific domains of interest, opening new possibilities for targeted mechanistic interpretability of LLMs.
PDF51July 18, 2025