Entrena Autoencoders Dispersos de Manera Eficiente Aprovechando la Correlación de Características

Resumen

Los Autoencoders Escasos (SAEs, por sus siglas en inglés) han demostrado un potencial significativo para interpretar los estados ocultos de los modelos de lenguaje al descomponerlos en direcciones latentes interpretables. Sin embargo, entrenar SAEs a gran escala sigue siendo un desafío, especialmente cuando se utilizan tamaños de diccionario grandes. Si bien los decodificadores pueden aprovechar núcleos optimizados para la escasez, los codificadores aún requieren operaciones lineales computacionalmente intensivas con dimensiones de salida grandes. Para abordar esto, proponemos KronSAE, una arquitectura novedosa que factoriza la representación latente mediante la descomposición del producto de Kronecker, reduciendo drásticamente la sobrecarga de memoria y computación. Además, introducimos mAND, una función de activación diferenciable que aproxima la operación binaria AND, lo que mejora la interpretabilidad y el rendimiento en nuestro marco factorizado.

English

Sparse Autoencoders (SAEs) have demonstrated significant promise in interpreting the hidden states of language models by decomposing them into interpretable latent directions. However, training SAEs at scale remains challenging, especially when large dictionary sizes are used. While decoders can leverage sparse-aware kernels for efficiency, encoders still require computationally intensive linear operations with large output dimensions. To address this, we propose KronSAE, a novel architecture that factorizes the latent representation via Kronecker product decomposition, drastically reducing memory and computational overhead. Furthermore, we introduce mAND, a differentiable activation function approximating the binary AND operation, which improves interpretability and performance in our factorized framework.

Entrena Autoencoders Dispersos de Manera Eficiente Aprovechando la Correlación de Características

Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

Resumen

Support