Instabile Merkmale, reproduzierbare Unterräume: Verständnis der Seed-Abhängigkeit in Sparse Autoencodern

Zusammenfassung

Sparse Autoencoder (SAEs) werden häufig zur Interpretation neuronaler Netzwerkrepräsentationen eingesetzt, ihr Nutzen hängt jedoch davon ab, ob die gelernten Merkmale über Trainingsläufe hinweg reproduzierbar sind. Wir untersuchen diese Frage mittels Merkmalsstabilität: Für jedes SAE-Merkmal schätzen wir die Wahrscheinlichkeit, dass ein ähnliches Merkmal in einem unabhängig trainierten SAE wieder auftritt. Dies ergibt ein skalierbares, merkmalsbezogenes Signal, das stabile von instabilen Merkmalen unterscheidet. In einer groß angelegten Studie über Seeds, Modelle, Schichten, Wörterbuchgrößen und SAE-Varianten hinweg stellen wir eine ausgeprägte funktionale Asymmetrie fest: Stabile Merkmale tragen den Großteil des rekonstruktions- und vorhersagerelevanten Signals, während instabile Merkmale einen schwachen marginalen Einfluss haben und von niederfrequenten Oberflächenformauslösern sowohl in den Aktivierungsstatistiken als auch in automatischen Erklärungen dominiert werden. Geometrisch betrachtet sind instabile Merkmale einzeln nicht reproduzierbar, konzentrieren sich jedoch in reproduzierbaren Unterräumen niedrigen Rangs, was darauf hindeutet, dass die Seed-Abhängigkeit oft eine Basisambiguität innerhalb eines gemeinsamen Bereichs des Aktivierungsraums widerspiegelt, nicht bloßes Rauschen. Ein kontrolliertes synthetisches Modell macht diesen Mechanismus explizit und zeigt, dass zugrunde liegende Merkmale niedrigen Rangs auf Unterraumebene wiederhergestellt werden können, während sie als einzelne SAE-Latente über Seeds hinweg nicht identifizierbar bleiben. Schließlich konstruieren wir durch Zusammenführen einzigartiger Seed-übergreifender Merkmale stabilere SAEs, während wir die erklärte Varianz in diesem Setting bewahren. Zusammengenommen zeigen diese Ergebnisse, dass instabile Merkmale nicht bloß fehlgeschlagene oder verrauschte Latente sind: Sie haben einen schwachen individuellen funktionalen Einfluss, spiegeln jedoch eine reproduzierbare niedrigdimensionale Struktur wider, die von standardmäßigen SAEs über Seeds hinweg unterschiedlich aufgelöst wird.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.