Entraîner des autoencodeurs creux efficacement en exploitant la corrélation des caractéristiques
Train Sparse Autoencoders Efficiently by Utilizing Features Correlation
May 28, 2025
papers.authors: Vadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky
cs.AI
papers.abstract
Les autoencodeurs parcimonieux (SAE) ont démontré un potentiel significatif dans l'interprétation des états cachés des modèles de langage en les décomposant en directions latentes interprétables. Cependant, l'entraînement des SAE à grande échelle reste un défi, en particulier lorsque des dictionnaires de grande taille sont utilisés. Bien que les décodeurs puissent exploiter des noyaux optimisés pour la parcimonie afin d'améliorer l'efficacité, les encodeurs nécessitent toujours des opérations linéaires intensives en calcul avec des dimensions de sortie importantes. Pour résoudre ce problème, nous proposons KronSAE, une architecture novatrice qui factorise la représentation latente via une décomposition en produit de Kronecker, réduisant ainsi considérablement la mémoire et la surcharge computationnelle. Par ailleurs, nous introduisons mAND, une fonction d'activation différentiable qui approxime l'opération binaire ET, améliorant l'interprétabilité et les performances dans notre cadre factorisé.
English
Sparse Autoencoders (SAEs) have demonstrated significant promise in
interpreting the hidden states of language models by decomposing them into
interpretable latent directions. However, training SAEs at scale remains
challenging, especially when large dictionary sizes are used. While decoders
can leverage sparse-aware kernels for efficiency, encoders still require
computationally intensive linear operations with large output dimensions. To
address this, we propose KronSAE, a novel architecture that factorizes the
latent representation via Kronecker product decomposition, drastically reducing
memory and computational overhead. Furthermore, we introduce mAND, a
differentiable activation function approximating the binary AND operation,
which improves interpretability and performance in our factorized framework.