ChatPaper.aiChatPaper

Contrôles de cohérence pour les autoencodeurs épars : les SAE surpassent-ils les lignes de base aléatoires ?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

February 15, 2026
papers.authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI

papers.abstract

Les autoencodeurs parcimonieux (SAE) sont apparus comme un outil prometteur pour interpréter les réseaux de neurones en décomposant leurs activations en ensembles parcimonieux de caractéristiques interprétables par l'homme. Des travaux récents ont introduit plusieurs variantes de SAE et les ont appliqués avec succès à des modèles de pointe. Malgré l'enthousiasme, un nombre croissant de résultats négatifs dans des tâches en aval remet en question la capacité des SAE à identifier des caractéristiques significatives. Pour étudier directement cette question, nous réalisons deux évaluations complémentaires. Sur une configuration synthétique avec des caractéristiques de vérité terrain connues, nous démontrons que les SAE ne retrouvent que 9 % des vraies caractéristiques malgré un taux de variance expliquée de 71 %, montrant qu'ils échouent dans leur tâche fondamentale même lorsque la reconstruction est performante. Pour évaluer les SAE sur des activations réelles, nous introduisons trois lignes de base qui contraignent les directions des caractéristiques des SAE ou leurs motifs d'activation à des valeurs aléatoires. Par des expériences approfondies sur plusieurs architectures de SAE, nous montrons que nos lignes de base égalent les SAE entièrement entraînés en interprétabilité (0,87 contre 0,90), en sondage parcimonieux (0,69 contre 0,72) et en édition causale (0,73 contre 0,72). Ensemble, ces résultats suggèrent que les SAE dans leur état actuel ne décomposent pas de manière fiable les mécanismes internes des modèles.
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
PDF512February 19, 2026