Enseñe a los SAEs antiguos nuevos trucos de dominio con boosting
Teach Old SAEs New Domain Tricks with Boosting
July 17, 2025
Autores: Nikita Koriagin, Yaroslav Aksenov, Daniil Laptev, Gleb Gerasimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Resumen
Los Autoencoders Escasos (SAE, por sus siglas en inglés) han surgido como herramientas poderosas para interpretar las representaciones internas de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), aunque a menudo no logran capturar características específicas de un dominio que no son prevalentes en sus corpus de entrenamiento. Este artículo introduce un enfoque de aprendizaje residual que aborda esta ceguera a características sin requerir un reentrenamiento completo. Proponemos entrenar un SAE secundario específicamente para modelar el error de reconstrucción de un SAE preentrenado en textos específicos de un dominio, capturando eficazmente las características omitidas por el modelo primario. Al sumar las salidas de ambos modelos durante la inferencia, demostramos mejoras significativas tanto en la entropía cruzada de los LLM como en las métricas de varianza explicada en múltiples dominios especializados. Nuestros experimentos muestran que este método incorpora de manera eficiente nuevos conocimientos de dominio en los SAE existentes, manteniendo su rendimiento en tareas generales. Este enfoque permite a los investigadores mejorar selectivamente la interpretabilidad de los SAE para dominios específicos de interés, abriendo nuevas posibilidades para la interpretabilidad mecanicista dirigida de los LLM.
English
Sparse Autoencoders have emerged as powerful tools for interpreting the
internal representations of Large Language Models, yet they often fail to
capture domain-specific features not prevalent in their training corpora. This
paper introduces a residual learning approach that addresses this feature
blindness without requiring complete retraining. We propose training a
secondary SAE specifically to model the reconstruction error of a pretrained
SAE on domain-specific texts, effectively capturing features missed by the
primary model. By summing the outputs of both models during inference, we
demonstrate significant improvements in both LLM cross-entropy and explained
variance metrics across multiple specialized domains. Our experiments show that
this method efficiently incorporates new domain knowledge into existing SAEs
while maintaining their performance on general tasks. This approach enables
researchers to selectively enhance SAE interpretability for specific domains of
interest, opening new possibilities for targeted mechanistic interpretability
of LLMs.