Domando a Polissemanticidade em LLMs: Recuperação de Características Comprovada por meio de Autoencoders Esparsos
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Autores: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Resumo
Estudamos o desafio de alcançar a recuperação de recursos teoricamente fundamentada usando Autoencoders Esparsos (SAEs) para a interpretação de Modelos de Linguagem de Grande Escala (LLMs). Os algoritmos de treinamento de SAEs existentes frequentemente carecem de garantias matemáticas rigorosas e sofrem com limitações práticas, como sensibilidade a hiperparâmetros e instabilidade. Para abordar esses problemas, primeiro propomos um novo framework estatístico para o problema de recuperação de recursos, que inclui uma nova noção de identificabilidade de recursos ao modelar características polissêmicas como misturas esparsas de conceitos monossêmicos subjacentes. Com base nesse framework, introduzimos um novo algoritmo de treinamento de SAE baseado em "adaptação de viés", uma técnica que ajusta adaptativamente os parâmetros de viés da rede neural para garantir uma esparsidade de ativação adequada. Provamos teoricamente que esse algoritmo recupera corretamente todos os recursos monossêmicos quando os dados de entrada são amostrados a partir do nosso modelo estatístico proposto. Além disso, desenvolvemos uma variante empírica aprimorada, a Adaptação de Viés em Grupo (GBA), e demonstramos seu desempenho superior em comparação com métodos de referência quando aplicada a LLMs com até 1,5 bilhão de parâmetros. Este trabalho representa um passo fundamental na desmistificação do treinamento de SAEs ao fornecer o primeiro algoritmo de SAE com garantias teóricas de recuperação, avançando assim o desenvolvimento de sistemas de IA mais transparentes e confiáveis por meio de uma interpretabilidade mecanicista aprimorada.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.