Gemma Scope: Autoencoders dispersos abiertos en todas partes al mismo tiempo en Gemma 2
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2
August 9, 2024
Autores: Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda
cs.AI
Resumen
Los autoencoders dispersos (SAEs) son un método no supervisado para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características aparentemente interpretables. A pesar del entusiasmo reciente sobre su potencial, las aplicaciones de investigación fuera de la industria se ven limitadas por el alto costo de entrenar una suite completa de SAEs. En este trabajo, presentamos Gemma Scope, una suite abierta de SAEs JumpReLU entrenados en todas las capas y subcapas de los modelos base Gemma 2 2B y 9B, y en capas seleccionadas de los modelos base Gemma 2 27B. Entrenamos principalmente los SAEs en los modelos pre-entrenados de Gemma 2, pero también liberamos SAEs entrenados en Gemma 2 9B ajustados por instrucción para comparación. Evaluamos la calidad de cada SAE en métricas estándar y publicamos estos resultados. Esperamos que al liberar estos pesos de SAE, podamos facilitar la investigación de seguridad e interpretabilidad más ambiciosa para la comunidad. Los pesos y un tutorial se pueden encontrar en https://huggingface.co/google/gemma-scope y una demo interactiva en https://www.neuronpedia.org/gemma-scope.
English
Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse
decomposition of a neural network's latent representations into seemingly
interpretable features. Despite recent excitement about their potential,
research applications outside of industry are limited by the high cost of
training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope,
an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2
2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs
on the Gemma 2 pre-trained models, but additionally release SAEs trained on
instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each
SAE on standard metrics and release these results. We hope that by releasing
these SAE weights, we can help make more ambitious safety and interpretability
research easier for the community. Weights and a tutorial can be found at
https://huggingface.co/google/gemma-scope and an interactive demo can be found
at https://www.neuronpedia.org/gemma-scopeSummary
AI-Generated Summary