Avanzando: Mejorando la fidelidad de reconstrucción con Autoencoders dispersos JumpReLU

Resumen

Los autoencoders dispersos (SAEs) son un enfoque prometedor no supervisado para identificar características lineales causalmente relevantes e interpretables en las activaciones de un modelo de lenguaje (LM). Para ser útiles para tareas posteriores, los SAEs necesitan descomponer las activaciones del LM de manera fiel; sin embargo, para ser interpretables, la descomposición debe ser dispersa, dos objetivos que están en tensión. En este documento, presentamos los SAEs JumpReLU, que logran una fidelidad de reconstrucción de vanguardia en un nivel de dispersión dado en las activaciones de Gemma 2 9B, en comparación con otros avances recientes como los SAEs Gated y TopK. También demostramos que esta mejora no se produce a expensas de la interpretabilidad a través de estudios de interpretabilidad manuales y automatizados. Los SAEs JumpReLU son una modificación simple de los SAEs de ReLU (unidad lineal rectificada) convencionales, donde reemplazamos la ReLU con una función de activación JumpReLU discontinua, y son igualmente eficientes de entrenar y ejecutar. Al utilizar estimadores de avance directo (STEs) de manera fundamentada, mostramos cómo es posible entrenar efectivamente los SAEs JumpReLU a pesar de la función JumpReLU discontinua introducida en el pase hacia adelante del SAE. De manera similar, utilizamos STEs para entrenar directamente L0 de manera dispersa, en lugar de entrenar en proxies como L1, evitando problemas como la contracción.

English

Sparse autoencoders (SAEs) are a promising unsupervised approach for identifying causally relevant and interpretable linear features in a language model's (LM) activations. To be useful for downstream tasks, SAEs need to decompose LM activations faithfully; yet to be interpretable the decomposition must be sparse -- two objectives that are in tension. In this paper, we introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity at a given sparsity level on Gemma 2 9B activations, compared to other recent advances such as Gated and TopK SAEs. We also show that this improvement does not come at the cost of interpretability through manual and automated interpretability studies. JumpReLU SAEs are a simple modification of vanilla (ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU activation function -- and are similarly efficient to train and run. By utilising straight-through-estimators (STEs) in a principled manner, we show how it is possible to train JumpReLU SAEs effectively despite the discontinuous JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs to directly train L0 to be sparse, instead of training on proxies such as L1, avoiding problems like shrinkage.

Avanzando: Mejorando la fidelidad de reconstrucción con Autoencoders dispersos JumpReLU

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Resumen

Support