Entraîner des autoencodeurs creux efficacement en exploitant la corrélation des caractéristiques

papers.abstract

Les autoencodeurs parcimonieux (SAE) ont démontré un potentiel significatif dans l'interprétation des états cachés des modèles de langage en les décomposant en directions latentes interprétables. Cependant, l'entraînement des SAE à grande échelle reste un défi, en particulier lorsque des dictionnaires de grande taille sont utilisés. Bien que les décodeurs puissent exploiter des noyaux optimisés pour la parcimonie afin d'améliorer l'efficacité, les encodeurs nécessitent toujours des opérations linéaires intensives en calcul avec des dimensions de sortie importantes. Pour résoudre ce problème, nous proposons KronSAE, une architecture novatrice qui factorise la représentation latente via une décomposition en produit de Kronecker, réduisant ainsi considérablement la mémoire et la surcharge computationnelle. Par ailleurs, nous introduisons mAND, une fonction d'activation différentiable qui approxime l'opération binaire ET, améliorant l'interprétabilité et les performances dans notre cadre factorisé.

English

Sparse Autoencoders (SAEs) have demonstrated significant promise in interpreting the hidden states of language models by decomposing them into interpretable latent directions. However, training SAEs at scale remains challenging, especially when large dictionary sizes are used. While decoders can leverage sparse-aware kernels for efficiency, encoders still require computationally intensive linear operations with large output dimensions. To address this, we propose KronSAE, a novel architecture that factorizes the latent representation via Kronecker product decomposition, drastically reducing memory and computational overhead. Furthermore, we introduce mAND, a differentiable activation function approximating the binary AND operation, which improves interpretability and performance in our factorized framework.

Entraîner des autoencodeurs creux efficacement en exploitant la corrélation des caractéristiques

Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

papers.abstract

Support