FaithfulSAE: Op Weg naar het Vastleggen van Trouwe Kenmerken met Sparse Autoencoders zonder Afhankelijkheid van Externe Datasets
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
June 21, 2025
Auteurs: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI
Samenvatting
Sparse Autoencoders (SAEs) zijn naar voren gekomen als een veelbelovende oplossing voor het ontbinden van representaties van grote taalmodellen in interpreteerbare kenmerken. Echter hebben Paulo en Belrose (2025) instabiliteit onder verschillende initialisatiezaden benadrukt, en Heap et al. (2025) hebben aangegeven dat SAEs mogelijk geen modelinterne kenmerken vastleggen. Deze problemen lijken voort te komen uit het trainen van SAEs op externe datasets – verzameld van het web of gegenereerd door een ander model – die out-of-distribution (OOD) data kunnen bevatten die buiten de generalisatiecapaciteiten van het model vallen. Dit kan leiden tot gehallucineerde SAE-kenmerken, die we "Nepkenmerken" noemen, en die de interne activaties van het model verkeerd weergeven. Om deze problemen aan te pakken, stellen we FaithfulSAE voor, een methode die SAEs traint op het eigen synthetische dataset van het model. Met FaithfulSAEs laten we zien dat het trainen van SAEs op minder-OOD instructiedatasets resulteert in stabielere SAEs over verschillende zaden. Opmerkelijk is dat FaithfulSAEs beter presteren dan SAEs die getraind zijn op webgebaseerde datasets in de SAE-probingtaak en een lagere Nepkenmerkenratio vertonen in 5 van de 7 modellen. Over het algemeen elimineert onze aanpak de afhankelijkheid van externe datasets, wat de interpreteerbaarheid bevordert door modelinterne kenmerken beter vast te leggen, terwijl het de vaak verwaarloosde belangrijkheid van SAE-trainingsdatasets benadrukt.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for
decomposing large language model representations into interpretable features.
However, Paulo and Belrose (2025) have highlighted instability across different
initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not
capture model-internal features. These problems likely stem from training SAEs
on external datasets - either collected from the Web or generated by another
model - which may contain out-of-distribution (OOD) data beyond the model's
generalisation capabilities. This can result in hallucinated SAE features,
which we term "Fake Features", that misrepresent the model's internal
activations. To address these issues, we propose FaithfulSAE, a method that
trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we
demonstrate that training SAEs on less-OOD instruction datasets results in SAEs
being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained
on web-based datasets in the SAE probing task and exhibit a lower Fake Feature
Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on
external datasets, advancing interpretability by better capturing
model-internal features while highlighting the often neglected importance of
SAE training datasets.