ChatPaper.aiChatPaper

スパースオートエンコーダの健全性チェック:SAEはランダムベースラインを超えるか?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

February 15, 2026
著者: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI

要旨

スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間が解釈可能なスパースな特徴量の集合に分解することで、ネットワークの解釈を可能にする有望なツールとして登場しました。近年の研究では複数のSAE変種が導入され、フロンティアモデルへのスケーリングに成功しています。しかしながら、下流タスクにおける否定的な結果が増加していることから、SAEが意味のある特徴量を真に回復しているかどうか疑問が投げかけられています。この問題を直接検証するため、我々は二つの相補的な評価を実施しました。既知の真の特徴量を持つ合成設定では、SAEが71%の説明分散を達成しているにもかかわらず、真の特徴量のわずか9%しか回復できないことを実証し、再構成が強力であっても核心的なタスクに失敗していることを示しました。実活性化におけるSAEを評価するため、SAEの特徴量方向またはその活性化パターンをランダム値に制約する三つのベースラインを導入しました。複数のSAEアーキテクチャにわたる大規模な実験を通じて、我々のベースラインが完全学習済みSAEと同等の性能を、解釈可能性(0.87対0.90)、スパースプロービング(0.69対0.72)、因果的編集(0.73対0.72)で達成することを示しました。これらの結果は総合的に、現状のSAEがモデルの内部メカニズムを確実に分解できていないことを示唆しています。
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
PDF512February 19, 2026