Effizientes Training von Sparse Autoencodern durch Nutzung von Merkmalskorrelationen

papers.abstract

Sparse Autoencoders (SAEs) haben ein erhebliches Potenzial bei der Interpretation der verborgenen Zustände von Sprachmodellen gezeigt, indem sie diese in interpretierbare latente Richtungen zerlegen. Das Training von SAEs in großem Maßstab bleibt jedoch eine Herausforderung, insbesondere wenn große Wörterbuchgrößen verwendet werden. Während Decoder sparsitätsbewusste Kernel zur Effizienzsteigerung nutzen können, erfordern Encoder weiterhin rechenintensive lineare Operationen mit großen Ausgabedimensionen. Um dies zu adressieren, schlagen wir KronSAE vor, eine neuartige Architektur, die die latente Darstellung durch Kronecker-Produkt-Zerlegung faktorisiert und dadurch den Speicher- und Rechenaufwand drastisch reduziert. Darüber hinaus führen wir mAND ein, eine differenzierbare Aktivierungsfunktion, die die binäre AND-Operation approximiert und die Interpretierbarkeit und Leistung in unserem faktorisierten Framework verbessert.

English

Sparse Autoencoders (SAEs) have demonstrated significant promise in interpreting the hidden states of language models by decomposing them into interpretable latent directions. However, training SAEs at scale remains challenging, especially when large dictionary sizes are used. While decoders can leverage sparse-aware kernels for efficiency, encoders still require computationally intensive linear operations with large output dimensions. To address this, we propose KronSAE, a novel architecture that factorizes the latent representation via Kronecker product decomposition, drastically reducing memory and computational overhead. Furthermore, we introduce mAND, a differentiable activation function approximating the binary AND operation, which improves interpretability and performance in our factorized framework.

Effizientes Training von Sparse Autoencodern durch Nutzung von Merkmalskorrelationen

Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

papers.abstract

Support