Domando la Polisemanticidad en los LLM: Recuperación de Características Demostrable mediante Autoencoders Escasos

Resumen

Estudiamos el desafío de lograr la recuperación teóricamente fundamentada de características utilizando Autoencoders Escasos (SAEs) para la interpretación de Modelos de Lenguaje a Gran Escala. Los algoritmos existentes de entrenamiento de SAEs a menudo carecen de garantías matemáticas rigurosas y sufren limitaciones prácticas como la sensibilidad a hiperparámetros y la inestabilidad. Para abordar estos problemas, primero proponemos un nuevo marco estadístico para el problema de recuperación de características, que incluye una nueva noción de identificabilidad de características al modelar características polisémicas como mezclas escasas de conceptos monosémicos subyacentes. Basándonos en este marco, introducimos un nuevo algoritmo de entrenamiento de SAEs basado en la "adaptación de sesgo", una técnica que ajusta adaptativamente los parámetros de sesgo de la red neuronal para garantizar una escasez de activación adecuada. Demostramos teóricamente que este algoritmo recupera correctamente todas las características monosémicas cuando los datos de entrada se muestrean a partir de nuestro modelo estadístico propuesto. Además, desarrollamos una variante empírica mejorada, la Adaptación de Sesgo Grupal (GBA), y demostramos su rendimiento superior frente a métodos de referencia cuando se aplica a modelos de lenguaje con hasta 1.500 millones de parámetros. Este trabajo representa un paso fundamental en la desmitificación del entrenamiento de SAEs al proporcionar el primer algoritmo de SAE con garantías teóricas de recuperación, avanzando así en el desarrollo de sistemas de IA más transparentes y confiables a través de una mayor interpretabilidad mecanicista.

English

We study the challenge of achieving theoretically grounded feature recovery using Sparse Autoencoders (SAEs) for the interpretation of Large Language Models. Existing SAE training algorithms often lack rigorous mathematical guarantees and suffer from practical limitations such as hyperparameter sensitivity and instability. To address these issues, we first propose a novel statistical framework for the feature recovery problem, which includes a new notion of feature identifiability by modeling polysemantic features as sparse mixtures of underlying monosemantic concepts. Building on this framework, we introduce a new SAE training algorithm based on ``bias adaptation'', a technique that adaptively adjusts neural network bias parameters to ensure appropriate activation sparsity. We theoretically prove that this algorithm correctly recovers all monosemantic features when input data is sampled from our proposed statistical model. Furthermore, we develop an improved empirical variant, Group Bias Adaptation (GBA), and demonstrate its superior performance against benchmark methods when applied to LLMs with up to 1.5 billion parameters. This work represents a foundational step in demystifying SAE training by providing the first SAE algorithm with theoretical recovery guarantees, thereby advancing the development of more transparent and trustworthy AI systems through enhanced mechanistic interpretability.

Domando la Polisemanticidad en los LLM: Recuperación de Características Demostrable mediante Autoencoders Escasos

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders

Resumen

Support