Domando la Polisemanticidad en los LLM: Recuperación de Características Demostrable mediante Autoencoders Escasos
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Autores: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Resumen
Estudiamos el desafío de lograr la recuperación teóricamente fundamentada de características utilizando Autoencoders Escasos (SAEs) para la interpretación de Modelos de Lenguaje a Gran Escala. Los algoritmos existentes de entrenamiento de SAEs a menudo carecen de garantías matemáticas rigurosas y sufren limitaciones prácticas como la sensibilidad a hiperparámetros y la inestabilidad. Para abordar estos problemas, primero proponemos un nuevo marco estadístico para el problema de recuperación de características, que incluye una nueva noción de identificabilidad de características al modelar características polisémicas como mezclas escasas de conceptos monosémicos subyacentes. Basándonos en este marco, introducimos un nuevo algoritmo de entrenamiento de SAEs basado en la "adaptación de sesgo", una técnica que ajusta adaptativamente los parámetros de sesgo de la red neuronal para garantizar una escasez de activación adecuada. Demostramos teóricamente que este algoritmo recupera correctamente todas las características monosémicas cuando los datos de entrada se muestrean a partir de nuestro modelo estadístico propuesto. Además, desarrollamos una variante empírica mejorada, la Adaptación de Sesgo Grupal (GBA), y demostramos su rendimiento superior frente a métodos de referencia cuando se aplica a modelos de lenguaje con hasta 1.500 millones de parámetros. Este trabajo representa un paso fundamental en la desmitificación del entrenamiento de SAEs al proporcionar el primer algoritmo de SAE con garantías teóricas de recuperación, avanzando así en el desarrollo de sistemas de IA más transparentes y confiables a través de una mayor interpretabilidad mecanicista.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.