Caractéristiques instables, sous-espaces reproductibles : comprendre la dépendance aux graines dans les autoencodeurs parcimonieux

Résumé

Les autoencodeurs parcimonieux (SAEs) sont largement utilisés pour interpréter les représentations des réseaux de neurones, mais leur utilité dépend de la reproductibilité des caractéristiques apprises d'un entraînement à l'autre. Nous étudions cette question à travers la stabilité des caractéristiques : pour chaque caractéristique d'un SAE, nous estimons la probabilité qu'une caractéristique similaire réapparaisse dans un SAE entraîné indépendamment. Cela produit un signal par caractéristique évolutif qui sépare les caractéristiques stables des instables. Dans une étude à grande échelle portant sur différents germes aléatoires, modèles, couches, tailles de dictionnaire et variantes de SAE, nous constatons une asymétrie fonctionnelle prononcée : les caractéristiques stables portent la majeure partie du signal pertinent pour la reconstruction et la prédiction, tandis que les caractéristiques instables ont un impact marginal faible et sont dominées par des déclencheurs de forme de surface à basse fréquence, tant dans les statistiques d'activation que dans les explications automatiques. Géométriquement, les caractéristiques instables ne sont pas reproductibles individuellement mais se concentrent dans des sous-espaces de rang inférieur reproductibles, ce qui suggère que la dépendance au germe reflète souvent une ambiguïté de base dans une région partagée de l'espace d'activation plutôt qu'un simple bruit. Un modèle synthétique contrôlé rend ce mécanisme explicite, montrant que des caractéristiques de vérité terrain de faible rang peuvent être récupérées au niveau du sous-espace tout en restant non identifiables en tant que latents individuels du SAE d'un germe à l'autre. Enfin, en regroupant les caractéristiques uniques inter-germes, nous construisons des SAE plus stables tout en préservant la variance expliquée dans ce cadre. Ensemble, ces résultats montrent que les caractéristiques instables ne sont pas simplement des latents échoués ou bruités : elles ont un faible impact fonctionnel individuel, mais reflètent une structure reproductible de faible dimension que les SAE standards résolvent différemment selon les germes.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.