Maîtriser la polysémanticité dans les LLM : Récupération prouvable de caractéristiques via des autoencodeurs parcimonieux
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Auteurs: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Résumé
Nous étudions le défi de la récupération théoriquement fondée de caractéristiques en utilisant des Autoencodeurs Sparse (SAEs) pour l'interprétation des modèles de langage à grande échelle (LLMs). Les algorithmes existants d'entraînement des SAEs manquent souvent de garanties mathématiques rigoureuses et souffrent de limitations pratiques telles que la sensibilité aux hyperparamètres et l'instabilité. Pour résoudre ces problèmes, nous proposons d'abord un nouveau cadre statistique pour le problème de récupération des caractéristiques, qui inclut une nouvelle notion d'identifiabilité des caractéristiques en modélisant les caractéristiques polysémantiques comme des mélanges sparses de concepts monosémantiques sous-jacents. Sur la base de ce cadre, nous introduisons un nouvel algorithme d'entraînement de SAE basé sur « l'adaptation de biais », une technique qui ajuste de manière adaptative les paramètres de biais des réseaux de neurones pour assurer une sparsité d'activation appropriée. Nous prouvons théoriquement que cet algorithme récupère correctement toutes les caractéristiques monosémantiques lorsque les données d'entrée sont échantillonnées à partir de notre modèle statistique proposé. De plus, nous développons une variante empirique améliorée, l'Adaptation de Biais par Groupe (GBA), et démontrons sa performance supérieure par rapport aux méthodes de référence lorsqu'elle est appliquée à des LLMs comportant jusqu'à 1,5 milliard de paramètres. Ce travail représente une étape fondamentale dans la démystification de l'entraînement des SAEs en fournissant le premier algorithme de SAE avec des garanties théoriques de récupération, contribuant ainsi au développement de systèmes d'IA plus transparents et dignes de confiance grâce à une interprétabilité mécanistique améliorée.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.