Instabiele kenmerken, reproduceerbare deelruimten: Begrip van zaadafhankelijkheid in schaarse auto-encoders

Samenvatting

Sparse autoencoders (SAE's) worden veel gebruikt om representaties van neurale netwerken te interpreteren, maar hun bruikbaarheid hangt af van of de geleerde kenmerken reproduceerbaar zijn over trainingsruns. We bestuderen deze vraag via kenmerkstabiliteit: voor elk SAE-kenmerk schatten we de kans dat een vergelijkbaar kenmerk opnieuw verschijnt in een onafhankelijk getraind SAE. Dit levert een schaalbaar per-kenmerk signaal op dat stabiele van instabiele kenmerken scheidt. In een grootschalige studie over seeds, modellen, lagen, woordenboekgroottes en SAE-varianten vinden we een uitgesproken functionele asymmetrie: stabiele kenmerken dragen het grootste deel van het reconstructie- en predictierelevante signaal, terwijl instabiele kenmerken een zwakke marginale impact hebben en gedomineerd worden door laagfrequente oppervlaktevormtriggers in zowel activatiestatistieken als automatische verklaringen. Geometrisch gezien zijn instabiele kenmerken individueel niet-reproduceerbaar, maar concentreren ze zich in reproduceerbare deelruimten van lagere rang, wat suggereert dat seed-afhankelijkheid vaak basisambiguïteit binnen een gedeeld gebied van de activatieruimte weerspiegelt in plaats van pure ruis. Een gecontroleerd synthetisch model maakt dit mechanisme expliciet en toont aan dat grondwaarheidskenmerken van lage rang op deelruimteniveau kunnen worden teruggevonden, terwijl ze als individuele SAE-latente variabelen niet-identificeerbaar blijven over seeds heen. Tot slot construeren we, door het samenvoegen van unieke cross-seed kenmerken, stabielere SAE's terwijl de verklaarde variantie in deze setting behouden blijft. Samen tonen deze resultaten aan dat instabiele kenmerken niet slechts mislukte of ruizige latente variabelen zijn: ze hebben een zwakke individuele functionele impact, maar weerspiegelen reproduceerbare laagdimensionale structuur die standaard SAE's verschillend oplossen over seeds heen.

English

Sparse autoencoders (SAEs) are widely used to interpret neural network representations, but their utility depends on whether the learned features are reproducible across training runs. We study this question through feature stability: for each SAE feature, we estimate the probability that a similar feature reappears in an independently trained SAE. This yields a scalable per-feature signal that separates stable from unstable features. In a large-scale study across seeds, models, layers, dictionary sizes, and SAE variants, we find a pronounced functional asymmetry: stable features carry most of the reconstruction- and prediction-relevant signal, while unstable features have weak marginal impact and are dominated by low-frequency surface-form triggers in both activation statistics and automatic explanations. Geometrically, unstable features are individually non-reproducible but concentrate in reproducible lower-rank subspaces, suggesting that seed dependence often reflects basis ambiguity within a shared region of activation space rather than pure noise. A controlled synthetic model makes this mechanism explicit, showing that low-rank ground-truth features can be recovered at the subspace level while remaining non-identifiable as individual SAE latents across seeds. Finally, by pooling unique cross-seed features, we construct more stable SAEs while preserving explained variance in this setting. Together, these results show that unstable features are not merely failed or noisy latents: they have weak individual functional impact, but reflect reproducible low-dimensional structure that standard SAEs resolve differently across seeds.