Управление полисемантичностью в языковых моделях: восстановление признаков с доказательством с использованием разреженных автокодировщиков
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders
June 16, 2025
Авторы: Siyu Chen, Heejune Sheen, Xuyuan Xiong, Tianhao Wang, Zhuoran Yang
cs.AI
Аннотация
Мы исследуем задачу достижения теоретически обоснованного восстановления признаков с использованием разреженных автокодировщиков (Sparse Autoencoders, SAE) для интерпретации крупных языковых моделей (Large Language Models, LLM). Существующие алгоритмы обучения SAE часто не имеют строгих математических гарантий и страдают от практических ограничений, таких как чувствительность к гиперпараметрам и нестабильность. Для решения этих проблем мы сначала предлагаем новый статистический подход к задаче восстановления признаков, включающий новое понятие идентифицируемости признаков, моделируя полисемантические признаки как разреженные смеси базовых моносемантических концепций. На основе этого подхода мы представляем новый алгоритм обучения SAE, основанный на «адаптации смещения» (bias adaptation), — технике, которая адаптивно корректирует параметры смещения нейронной сети для обеспечения необходимой разреженности активаций. Мы теоретически доказываем, что этот алгоритм корректно восстанавливает все моносемантические признаки, если входные данные взяты из предложенной нами статистической модели. Кроме того, мы разрабатываем улучшенную эмпирическую версию — адаптацию группового смещения (Group Bias Adaptation, GBA) — и демонстрируем её превосходство по сравнению с эталонными методами при применении к LLM с числом параметров до 1,5 миллиарда. Данная работа представляет собой фундаментальный шаг в разъяснении процесса обучения SAE, предоставляя первый алгоритм SAE с теоретическими гарантиями восстановления, что способствует развитию более прозрачных и надежных систем искусственного интеллекта за счёт улучшенной механистической интерпретируемости.
English
We study the challenge of achieving theoretically grounded feature recovery
using Sparse Autoencoders (SAEs) for the interpretation of Large Language
Models. Existing SAE training algorithms often lack rigorous mathematical
guarantees and suffer from practical limitations such as hyperparameter
sensitivity and instability. To address these issues, we first propose a novel
statistical framework for the feature recovery problem, which includes a new
notion of feature identifiability by modeling polysemantic features as sparse
mixtures of underlying monosemantic concepts. Building on this framework, we
introduce a new SAE training algorithm based on ``bias adaptation'', a
technique that adaptively adjusts neural network bias parameters to ensure
appropriate activation sparsity. We theoretically prove that this
algorithm correctly recovers all monosemantic features when input data is
sampled from our proposed statistical model. Furthermore, we develop an
improved empirical variant, Group Bias Adaptation (GBA), and
demonstrate its superior performance against benchmark methods when
applied to LLMs with up to 1.5 billion parameters. This work represents a
foundational step in demystifying SAE training by providing the first SAE
algorithm with theoretical recovery guarantees, thereby advancing the
development of more transparent and trustworthy AI systems through enhanced
mechanistic interpretability.