Características Instáveis, Subespaços Reproduzíveis: Compreendendo a Dependência da Semente em Autoencoders Esparsos

Resumo

Autoencoders esparsos (SAEs) são amplamente utilizados para interpretar representações de redes neurais, mas sua utilidade depende da reprodutibilidade das características aprendidas entre diferentes execuções de treinamento. Investigamos essa questão por meio da estabilidade de características: para cada característica do SAE, estimamos a probabilidade de que uma característica similar reapareça em um SAE treinado de forma independente. Isso fornece um sinal escalável por característica que separa características estáveis de instáveis. Em um estudo em larga escala envolvendo diferentes sementes aleatórias, modelos, camadas, tamanhos de dicionário e variantes de SAEs, encontramos uma assimetria funcional pronunciada: características estáveis carregam a maior parte do sinal relevante para reconstrução e predição, enquanto características instáveis têm impacto marginal fraco e são dominadas por gatilhos de forma superficial de baixa frequência tanto nas estatísticas de ativação quanto em explicações automáticas. Geometricamente, características instáveis são individualmente não reprodutíveis, mas concentram-se em subespaços de posto baixo reprodutíveis, sugerindo que a dependência da semente geralmente reflete ambiguidade de base dentro de uma região compartilhada do espaço de ativação, em vez de ruído puro. Um modelo sintético controlado torna esse mecanismo explícito, mostrando que características verdadeiras de posto baixo podem ser recuperadas no nível do subespaço, permanecendo não identificáveis como latentes individuais do SAE entre diferentes sementes. Finalmente, ao agregar características únicas entre sementes, construímos SAEs mais estáveis, preservando a variância explicada nesse contexto. Juntos, esses resultados mostram que características instáveis não são meramente latentes falhas ou ruidosas: elas têm fraco impacto funcional individual, mas refletem uma estrutura reprodutível de baixa dimensão que SAEs padrão resolvem de forma diferente entre sementes.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.