ChatPaper.aiChatPaper

Gemma Scope: Autoencoders dispersos abiertos en todas partes al mismo tiempo en Gemma 2

Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

August 9, 2024
Autores: Tom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda
cs.AI

Resumen

Los autoencoders dispersos (SAEs) son un método no supervisado para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características aparentemente interpretables. A pesar del entusiasmo reciente sobre su potencial, las aplicaciones de investigación fuera de la industria se ven limitadas por el alto costo de entrenar una suite completa de SAEs. En este trabajo, presentamos Gemma Scope, una suite abierta de SAEs JumpReLU entrenados en todas las capas y subcapas de los modelos base Gemma 2 2B y 9B, y en capas seleccionadas de los modelos base Gemma 2 27B. Entrenamos principalmente los SAEs en los modelos pre-entrenados de Gemma 2, pero también liberamos SAEs entrenados en Gemma 2 9B ajustados por instrucción para comparación. Evaluamos la calidad de cada SAE en métricas estándar y publicamos estos resultados. Esperamos que al liberar estos pesos de SAE, podamos facilitar la investigación de seguridad e interpretabilidad más ambiciosa para la comunidad. Los pesos y un tutorial se pueden encontrar en https://huggingface.co/google/gemma-scope y una demo interactiva en https://www.neuronpedia.org/gemma-scope.
English
Sparse autoencoders (SAEs) are an unsupervised method for learning a sparse decomposition of a neural network's latent representations into seemingly interpretable features. Despite recent excitement about their potential, research applications outside of industry are limited by the high cost of training a comprehensive suite of SAEs. In this work, we introduce Gemma Scope, an open suite of JumpReLU SAEs trained on all layers and sub-layers of Gemma 2 2B and 9B and select layers of Gemma 2 27B base models. We primarily train SAEs on the Gemma 2 pre-trained models, but additionally release SAEs trained on instruction-tuned Gemma 2 9B for comparison. We evaluate the quality of each SAE on standard metrics and release these results. We hope that by releasing these SAE weights, we can help make more ambitious safety and interpretability research easier for the community. Weights and a tutorial can be found at https://huggingface.co/google/gemma-scope and an interactive demo can be found at https://www.neuronpedia.org/gemma-scope

Summary

AI-Generated Summary

PDF402November 28, 2024