Het temmen van polysemantiek in LLM's: Bewijsbare kenmerkherwinning via Sparse Autoencoders
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Auteurs: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Samenvatting
We bestuderen de uitdaging van het bereiken van theoretisch onderbouwde feature recovery met behulp van Sparse Autoencoders (SAEs) voor de interpretatie van Large Language Models. Bestaande SAE-trainingsalgoritmen missen vaak rigoureuze wiskundige garanties en hebben te kampen met praktische beperkingen zoals hyperparametergevoeligheid en instabiliteit. Om deze problemen aan te pakken, stellen we eerst een nieuw statistisch raamwerk voor voor het feature recovery-probleem, dat een nieuw begrip van feature identificeerbaarheid omvat door polysemantische features te modelleren als sparse mengsels van onderliggende monosemantische concepten. Op basis van dit raamwerk introduceren we een nieuw SAE-trainingsalgoritme gebaseerd op "bias adaptation", een techniek die de biasparameters van neurale netwerken adaptief aanpast om een geschikte activatiesparsheid te garanderen. We bewijzen theoretisch dat dit algoritme alle monosemantische features correct herstelt wanneer invoergegevens worden bemonsterd uit ons voorgestelde statistische model. Bovendien ontwikkelen we een verbeterde empirische variant, Group Bias Adaptation (GBA), en demonstreren we de superieure prestaties ten opzichte van benchmarkmethoden wanneer deze wordt toegepast op LLMs met tot 1,5 miljard parameters. Dit werk vertegenwoordigt een fundamentele stap in het ontrafelen van SAE-training door het eerste SAE-algoritme met theoretische herstelgaranties te bieden, waardoor de ontwikkeling van transparantere en betrouwbaardere AI-systemen wordt bevorderd door verbeterde mechanistische interpreteerbaarheid.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.