Verificações de Sanidade para Autoencoders Esparsos: Os SAEs Superam as Linhas de Base Aleatórias?

Resumo

Os Autoencoders Esparsos (SAEs) surgiram como uma ferramenta promissora para interpretar redes neurais, decompondo suas ativações em conjuntos esparsos de características interpretáveis por humanos. Trabalhos recentes introduziram múltiplas variantes de SAEs e as aplicaram com sucesso em modelos de ponta. Apesar do grande entusiasmo, um número crescente de resultados negativos em tarefas secundárias levanta dúvidas sobre se os SAEs recuperam características significativas. Para investigar isso diretamente, realizamos duas avaliações complementares. Em uma configuração sintética com características básicas conhecidas, demonstramos que os SAEs recuperam apenas 9% das características verdadeiras, apesar de alcançarem 71% da variância explicada, mostrando que eles falham em sua tarefa principal mesmo quando a reconstrução é forte. Para avaliar SAEs em ativações reais, introduzimos três linhas de base que restringem as direções das características do SAE ou seus padrões de ativação a valores aleatórios. Por meio de experimentos extensos em múltiplas arquiteturas de SAE, mostramos que nossas linhas de base equivalem aos SAEs totalmente treinados em interpretabilidade (0,87 vs 0,90), sondagem esparsa (0,69 vs 0,72) e edição causal (0,73 vs 0,72). Juntos, esses resultados sugerem que os SAEs em seu estado atual não decompõem de forma confiável os mecanismos internos dos modelos.

English

Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.

Verificações de Sanidade para Autoencoders Esparsos: Os SAEs Superam as Linhas de Base Aleatórias?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Resumo

Support