ChatPaper.aiChatPaper

희소 오토인코더의 타당성 검증: SAE가 무작위 기준선을 능가하는가?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

February 15, 2026
저자: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI

초록

희소 오토인코더(SAE)는 신경망의 활성화를 인간이 해석 가능한 희소 특징 집합으로 분해함으로써 신경망을 해석하는 유망한 도구로 부상했습니다. 최근 연구에서는 여러 SAE 변형을 도입하고 이를 최첨단 모델에 확장 적용하는 데 성공했습니다. 많은 기대를 모았지만, 다운스트림 작업에서 부정적인 결과가 늘어나면서 SAE가 의미 있는 특징을 복구하는지에 대한 의문이 제기되고 있습니다. 이를 직접 조사하기 위해 우리는 두 가지 상호 보완적인 평가를 수행합니다. 실제 특징이 알려진 합성 설정에서 SAE는 71%의 설명된 분산을 달성했음에도 불구하고 실제 특징의 9%만 복구하는 것으로 나타나, 재구성이 강력한 경우에도 핵심 작업에 실패함을 보여줍니다. 실제 활성화에 대한 SAE를 평가하기 위해 SAE 특징 방향이나 활성화 패턴을 무작위 값으로 제한하는 세 가지 기준 모델을 도입했습니다. 다양한 SAE 아키텍처에 걸친 광범위한 실험을 통해 우리의 기준 모델이 완전히 훈련된 SAE와 해석 가능성(0.87 대 0.90), 희소 프로빙(0.69 대 0.72), 인과 편집(0.73 대 0.72)에서 동등한 성능을 보임을 확인했습니다. 이러한 결과를 종합하면, 현재 상태의 SAE는 모델의 내부 메커니즘을 신뢰성 있게 분해하지 못한다는 것을 시사합니다.
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
PDF512February 19, 2026