Неустойчивые признаки, воспроизводимые подпространства: понимание зависимости от seed в разреженных автоэнкодерах

Аннотация

Разреженные автоэнкодеры (SAE) широко используются для интерпретации представлений нейронных сетей, однако их полезность зависит от того, воспроизводятся ли изученные признаки при повторных запусках обучения. Мы исследуем этот вопрос через стабильность признаков: для каждого признака SAE мы оцениваем вероятность того, что аналогичный признак появится в независимо обученном SAE. Это дает масштабируемый сигнал для каждого признака, разделяющий стабильные и нестабильные признаки. В крупномасштабном исследовании, охватывающем различные начальные инициализации, модели, слои, размеры словарей и варианты SAE, мы обнаруживаем выраженную функциональную асимметрию: стабильные признаки несут большую часть сигнала, значимого для реконструкции и прогнозирования, тогда как нестабильные признаки имеют слабое маргинальное влияние и в своей основе определяются низкочастотными триггерами поверхностной формы как в статистике активаций, так и в автоматических объяснениях. Геометрически нестабильные признаки по отдельности невоспроизводимы, но сосредоточены в воспроизводимых подпространствах меньшего ранга, что указывает на то, что зависимость от начальной инициализации часто отражает неоднозначность базиса в рамках общего региона пространства активаций, а не чистый шум. Контролируемая синтетическая модель делает этот механизм явным, показывая, что низкоранговые признаки, соответствующие истинным данным, могут быть восстановлены на уровне подпространства, оставаясь неидентифицируемыми как отдельные латентные переменные SAE при разных начальных инициализациях. Наконец, объединяя уникальные признаки, полученные при разных инициализациях, мы конструируем более стабильные SAE, сохраняя при этом объясненную дисперсию в данном контексте. В совокупности эти результаты показывают, что нестабильные признаки — это не просто неудачные или зашумленные латентные переменные: они обладают слабым индивидуальным функциональным воздействием, но отражают воспроизводимую низкоразмерную структуру, которая в стандартных SAE разрешается по-разному в зависимости от начальной инициализации.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.