ChatPaper.aiChatPaper

Pruebas de Validez para Autoencoders Dispersos: ¿Superan los SAE a las Líneas Base Aleatorias?

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

February 15, 2026
Autores: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina
cs.AI

Resumen

Los Autoencoders Dispersos (SAE) han surgido como una herramienta prometedora para interpretar redes neuronales al descomponer sus activaciones en conjuntos dispersos de características interpretables para humanos. Trabajos recientes han introducido múltiples variantes de SAE y las han escalado con éxito a modelos de vanguardia. A pesar del gran entusiasmo, un número creciente de resultados negativos en tareas posteriores pone en duda si los SAE recuperan características significativas. Para investigar esto directamente, realizamos dos evaluaciones complementarias. En una configuración sintética con características de verdad fundamental conocidas, demostramos que los SAE recuperan solo el 9% de las características verdaderas a pesar de alcanzar un 71% de varianza explicada, lo que muestra que fallan en su tarea principal incluso cuando la reconstrucción es sólida. Para evaluar los SAE en activaciones reales, introducimos tres líneas de base que restringen las direcciones de las características del SAE o sus patrones de activación a valores aleatorios. A través de experimentos exhaustivos en múltiples arquitecturas de SAE, mostramos que nuestras líneas de base igualan a los SAE completamente entrenados en interpretabilidad (0.87 vs 0.90), sondeo disperso (0.69 vs 0.72) y edición causal (0.73 vs 0.72). En conjunto, estos resultados sugieren que los SAE en su estado actual no descomponen de manera confiable los mecanismos internos de los modelos.
English
Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only 9% of true features despite achieving 71% explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
PDF512February 19, 2026