Sanity Checks voor Sparse Autoencoders: Presteren SAE's Beter dan Willekeurige Baseline-modellen?

Samenvatting

Sparse Autoencoders (SAE's) zijn naar voren gekomen als een veelbelovend instrument voor het interpreteren van neurale netwerken door hun activeringen te ontbinden in sparse sets van door mensen interpreteerbare kenmerken. Recent onderzoek heeft meerdere SAE-varianten geïntroduceerd en deze met succes opgeschaald naar frontier-modellen. Ondanks de grote opwinding werpt een groeiend aantal negatieve resultaten in downstreamtaken twijfel op of SAE's daadwerkelijk betekenisvolle kenmerken blootleggen. Om dit direct te onderzoeken, voeren we twee complementaire evaluaties uit. In een synthetische opzet met bekende grondwaarheid-kenmerken tonen we aan dat SAE's slechts 9% van de werkelijke kenmerken herstellen, ondanks het behalen van 71% verklaarde variantie, wat aantoont dat ze falen in hun kerntaak, zelfs wanneer reconstructie sterk is. Om SAE's op echte activeringen te evalueren, introduceren we drie basislijnen die de richtingen van SAE-kenmerken of hun activeringspatronen beperken tot willekeurige waarden. Door middel van uitgebreide experimenten met meerdere SAE-architecturen laten we zien dat onze basislijnen volledig getrainde SAE's evenaren op het gebied van interpreteerbaarheid (0.87 vs 0.90), sparse probing (0.69 vs 0.72) en causale manipulatie (0.73 vs 0.72). Gezamenlijk suggereren deze resultaten dat SAE's in hun huidige staat niet betrouwbaar de interne mechanismen van modellen ontbinden.

English

Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.

Sanity Checks voor Sparse Autoencoders: Presteren SAE's Beter dan Willekeurige Baseline-modellen?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Samenvatting

Support