Bändigung der Polysemantik in LLMs: Beweisbare Merkmalswiederherstellung durch spärliche Autoencoder
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Autoren: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Zusammenfassung
Wir untersuchen die Herausforderung der theoretisch fundierten Merkmalsrückgewinnung mithilfe von Sparse Autoencodern (SAEs) zur Interpretation von Large Language Models. Bisherige SAE-Trainingsalgorithmen verfügen oft nicht über rigorose mathematische Garantien und leiden unter praktischen Einschränkungen wie Hyperparameterempfindlichkeit und Instabilität. Um diese Probleme zu adressieren, schlagen wir zunächst ein neuartiges statistisches Rahmenwerk für das Problem der Merkmalsrückgewinnung vor, das ein neues Konzept der Merkmalsidentifizierbarkeit beinhaltet, indem polysemantische Merkmale als spärliche Mischungen zugrunde liegender monosemantischer Konzepte modelliert werden. Aufbauend auf diesem Rahmenwerk führen wir einen neuen SAE-Trainingsalgorithmus ein, der auf „Bias-Adaptation“ basiert, einer Technik, die die Bias-Parameter von neuronalen Netzen adaptiv anpasst, um eine angemessene Aktivierungssparsität zu gewährleisten. Wir beweisen theoretisch, dass dieser Algorithmus alle monosemantischen Merkmale korrekt zurückgewinnt, wenn die Eingabedaten aus unserem vorgeschlagenen statistischen Modell stammen. Darüber hinaus entwickeln wir eine verbesserte empirische Variante, die Group Bias Adaptation (GBA), und demonstrieren ihre überlegene Leistung im Vergleich zu Benchmark-Methoden bei der Anwendung auf LLMs mit bis zu 1,5 Milliarden Parametern. Diese Arbeit stellt einen grundlegenden Schritt dar, um das Training von SAEs zu entmystifizieren, indem sie den ersten SAE-Algorithmus mit theoretischen Rückgewinnungsgarantien liefert und dadurch die Entwicklung transparenterer und vertrauenswürdiger KI-Systeme durch verbesserte mechanistische Interpretierbarkeit vorantreibt.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.