FaithfulSAE : Vers la capture de caractéristiques fidèles avec des autoencodeurs épars sans dépendances à des jeux de données externes
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
June 21, 2025
Auteurs: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI
Résumé
Les autoencodeurs parcimonieux (SAE) se sont imposés comme une solution prometteuse pour décomposer les représentations des grands modèles de langage en caractéristiques interprétables. Cependant, Paulo et Belrose (2025) ont mis en évidence une instabilité liée aux différentes initialisations aléatoires, tandis que Heap et al. (2025) ont souligné que les SAE pourraient ne pas capturer les caractéristiques internes des modèles. Ces problèmes découlent probablement de l'entraînement des SAE sur des ensembles de données externes – collectés sur le Web ou générés par un autre modèle – qui peuvent contenir des données hors distribution (OOD) dépassant les capacités de généralisation du modèle. Cela peut entraîner la création de caractéristiques hallucinées par les SAE, que nous qualifions de « Fake Features », qui déforment les activations internes du modèle. Pour résoudre ces problèmes, nous proposons FaithfulSAE, une méthode qui entraîne les SAE sur un ensemble de données synthétiques généré par le modèle lui-même. En utilisant FaithfulSAE, nous démontrons que l'entraînement des SAE sur des ensembles de données d'instructions moins OOD améliore leur stabilité face aux différentes initialisations. De manière notable, les FaithfulSAE surpassent les SAE entraînés sur des ensembles de données basés sur le Web dans la tâche de sondage des SAE et présentent un ratio de Fake Features plus faible pour 5 des 7 modèles testés. Globalement, notre approche élimine la dépendance aux ensembles de données externes, améliorant l'interprétabilité en capturant mieux les caractéristiques internes des modèles, tout en mettant en lumière l'importance souvent négligée des ensembles de données d'entraînement des SAE.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for
decomposing large language model representations into interpretable features.
However, Paulo and Belrose (2025) have highlighted instability across different
initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not
capture model-internal features. These problems likely stem from training SAEs
on external datasets - either collected from the Web or generated by another
model - which may contain out-of-distribution (OOD) data beyond the model's
generalisation capabilities. This can result in hallucinated SAE features,
which we term "Fake Features", that misrepresent the model's internal
activations. To address these issues, we propose FaithfulSAE, a method that
trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we
demonstrate that training SAEs on less-OOD instruction datasets results in SAEs
being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained
on web-based datasets in the SAE probing task and exhibit a lower Fake Feature
Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on
external datasets, advancing interpretability by better capturing
model-internal features while highlighting the often neglected importance of
SAE training datasets.