ChatPaper.aiChatPaper

Проверка адекватности разреженных автокодировщиков: превосходят ли SAE случайные базовые модели?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

February 15, 2026
Авторы: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI

Аннотация

Разреженные автоэнкодеры (SAE) стали перспективным инструментом для интерпретации нейронных сетей, разлагая их активации на разреженные наборы признаков, интерпретируемых человеком. В последних работах представлены несколько вариантов SAE и успешно масштабированы для передовых моделей. Несмотря на значительный энтузиазм, растущее число негативных результатов в смежных задачах ставит под сомнение, действительно ли SAE выделяют содержательные признаки. Для прямого исследования этого вопроса мы проводим две взаимодополняющие оценки. На синтетической задаче с известными истинными признаками мы показываем, что SAE восстанавливают лишь 9% реальных признаков, несмотря на достижение 71% объяснённой дисперсии, что демонстрирует их неспособность выполнить основную задачу даже при высокой точности реконструкции. Для оценки SAE на реальных активациях мы вводим три базовых метода, которые ограничивают направления признаков SAE или их паттерны активации случайными значениями. В ходе масштабных экспериментов с различными архитектурами SAE мы показываем, что наши базовые методы соответствуют полностью обученным SAE по интерпретируемости (0.87 против 0.90), разреженному probing-анализу (0.69 против 0.72) и каузальному редактированию (0.73 против 0.72). В совокупности эти результаты свидетельствуют, что SAE в их текущем состоянии не обеспечивают надёжного разложения внутренних механизмов моделей.
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
PDF512February 19, 2026