Plausibilitätsprüfungen für Sparse Autoencoders: Übertreffen SAEs zufällige Baseline-Modelle?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?
February 15, 2026
papers.authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI
papers.abstract
Sparse Autoencoders (SAEs) haben sich als vielversprechendes Werkzeug zur Interpretation neuronaler Netze etabliert, indem sie deren Aktivierungen in sparsame Mengen menschlich interpretierbarer Merkmale zerlegen. In jüngster Zeit wurden mehrere SAE-Varianten eingeführt und erfolgreich auf hochskalierte Modelle angewendet. Trotz großer Begeisterung werfen zunehmend negative Ergebnisse in nachgelagerten Aufgaben Zweifel auf, ob SAEs tatsächlich bedeutungsvolle Merkmale erfassen. Um dies direkt zu untersuchen, führen wir zwei komplementäre Evaluationen durch. In einem synthetischen Setup mit bekannten Ground-Truth-Merkmalen zeigen wir, dass SAEs trotz eines erklärten Varianzanteils von 71 % nur 9 % der tatsächlichen Merkmale wiederherstellen, was belegt, dass sie in ihrer Kernaufgabe versagen, selbst wenn die Rekonstruktion stark ist. Um SAEs an echten Aktivierungen zu bewerten, führen wir drei Baseline-Modelle ein, welche die Richtungen der SAE-Merkmale oder deren Aktivierungsmuster auf Zufallswerte beschränken. Durch umfangreiche Experimente mit verschiedenen SAE-Architekturen zeigen wir, dass unsere Baselines vollständig trainierte SAEs in Bezug auf Interpretierbarkeit (0,87 vs. 0,90), Sparse Probing (0,69 vs. 0,72) und kausale Modifikation (0,73 vs. 0,72) erreichen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass SAEs in ihrem aktuellen Zustand die internen Mechanismen von Modellen nicht zuverlässig zerlegen.
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.