Domare la polisemanticità nei LLM: Recupero dimostrabile delle caratteristiche tramite autoencoder sparsi
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Autori: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Abstract
Studiamo la sfida di ottenere un recupero delle feature teoricamente fondato utilizzando Autoencoder Sparse (SAE) per l'interpretazione di Modelli Linguistici di Grande Scala (LLM). Gli algoritmi esistenti per l'addestramento di SAE spesso mancano di garanzie matematiche rigorose e soffrono di limitazioni pratiche come la sensibilità agli iperparametri e l'instabilità. Per affrontare questi problemi, proponiamo innanzitutto un nuovo framework statistico per il problema del recupero delle feature, che include una nuova nozione di identificabilità delle feature modellando le feature polisemantiche come miscele sparse di concetti monosemantici sottostanti. Basandoci su questo framework, introduciamo un nuovo algoritmo di addestramento SAE basato su "adattamento del bias", una tecnica che regola in modo adattivo i parametri di bias delle reti neurali per garantire una sparsità di attivazione appropriata. Dimostriamo teoricamente che questo algoritmo recupera correttamente tutte le feature monosemantiche quando i dati di input sono campionati dal nostro modello statistico proposto. Inoltre, sviluppiamo una variante empirica migliorata, l'Adattamento del Bias di Gruppo (GBA), e ne dimostriamo le prestazioni superiori rispetto ai metodi di riferimento quando applicato a LLM con fino a 1,5 miliardi di parametri. Questo lavoro rappresenta un passo fondamentale nel demistificare l'addestramento SAE fornendo il primo algoritmo SAE con garanzie teoriche di recupero, contribuendo così allo sviluppo di sistemi di IA più trasparenti e affidabili attraverso una migliore interpretabilità meccanicistica.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.