Avanzando: Mejorando la fidelidad de reconstrucción con Autoencoders dispersos JumpReLU
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders
July 19, 2024
Autores: Senthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda
cs.AI
Resumen
Los autoencoders dispersos (SAEs) son un enfoque prometedor no supervisado para identificar características lineales causalmente relevantes e interpretables en las activaciones de un modelo de lenguaje (LM). Para ser útiles para tareas posteriores, los SAEs necesitan descomponer las activaciones del LM de manera fiel; sin embargo, para ser interpretables, la descomposición debe ser dispersa, dos objetivos que están en tensión. En este documento, presentamos los SAEs JumpReLU, que logran una fidelidad de reconstrucción de vanguardia en un nivel de dispersión dado en las activaciones de Gemma 2 9B, en comparación con otros avances recientes como los SAEs Gated y TopK. También demostramos que esta mejora no se produce a expensas de la interpretabilidad a través de estudios de interpretabilidad manuales y automatizados. Los SAEs JumpReLU son una modificación simple de los SAEs de ReLU (unidad lineal rectificada) convencionales, donde reemplazamos la ReLU con una función de activación JumpReLU discontinua, y son igualmente eficientes de entrenar y ejecutar. Al utilizar estimadores de avance directo (STEs) de manera fundamentada, mostramos cómo es posible entrenar efectivamente los SAEs JumpReLU a pesar de la función JumpReLU discontinua introducida en el pase hacia adelante del SAE. De manera similar, utilizamos STEs para entrenar directamente L0 de manera dispersa, en lugar de entrenar en proxies como L1, evitando problemas como la contracción.
English
Sparse autoencoders (SAEs) are a promising unsupervised approach for
identifying causally relevant and interpretable linear features in a language
model's (LM) activations. To be useful for downstream tasks, SAEs need to
decompose LM activations faithfully; yet to be interpretable the decomposition
must be sparse -- two objectives that are in tension. In this paper, we
introduce JumpReLU SAEs, which achieve state-of-the-art reconstruction fidelity
at a given sparsity level on Gemma 2 9B activations, compared to other recent
advances such as Gated and TopK SAEs. We also show that this improvement does
not come at the cost of interpretability through manual and automated
interpretability studies. JumpReLU SAEs are a simple modification of vanilla
(ReLU) SAEs -- where we replace the ReLU with a discontinuous JumpReLU
activation function -- and are similarly efficient to train and run. By
utilising straight-through-estimators (STEs) in a principled manner, we show
how it is possible to train JumpReLU SAEs effectively despite the discontinuous
JumpReLU function introduced in the SAE's forward pass. Similarly, we use STEs
to directly train L0 to be sparse, instead of training on proxies such as L1,
avoiding problems like shrinkage.Summary
AI-Generated Summary