Características inestables, subespacios reproducibles: Entendiendo la dependencia de la semilla en autoencoders dispersos

Resumen

Los autoencoders dispersos (SAEs, por sus siglas en inglés) se utilizan ampliamente para interpretar representaciones de redes neuronales, pero su utilidad depende de si las características aprendidas son reproducibles entre distintos entrenamientos. Estudiamos esta cuestión mediante la estabilidad de las características: para cada característica de un SAE, estimamos la probabilidad de que una característica similar reaparezca en un SAE entrenado de forma independiente. Esto proporciona una señal escalable por característica que separa las características estables de las inestables. En un estudio a gran escala que abarca distintas semillas, modelos, capas, tamaños de diccionario y variantes de SAE, encontramos una marcada asimetría funcional: las características estables transportan la mayor parte de la señal relevante para la reconstrucción y la predicción, mientras que las características inestables tienen un impacto marginal débil y están dominadas por desencadenantes superficiales de baja frecuencia tanto en las estadísticas de activación como en las explicaciones automáticas. Geométricamente, las características inestables no son reproducibles individualmente, pero se concentran en subespacios reproducibles de rango inferior, lo que sugiere que la dependencia de la semilla a menudo refleja una ambigüedad de base dentro de una región compartida del espacio de activación, más que ruido puro. Un modelo sintético controlado hace explícito este mecanismo, mostrando que las características reales de rango bajo pueden recuperarse a nivel de subespacio, mientras siguen siendo no identificables como variables latentes individuales del SAE entre distintas semillas. Finalmente, al agrupar características únicas entre semillas, construimos SAEs más estables mientras preservamos la varianza explicada en este contexto. En conjunto, estos resultados muestran que las características inestables no son simplemente variables latentes fallidas o ruidosas: tienen un impacto funcional individual débil, pero reflejan una estructura reproducible de baja dimensión que los SAEs estándar resuelven de manera diferente entre semillas.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.