FaithfulSAE : Vers la capture de caractéristiques fidèles avec des autoencodeurs épars sans dépendances à des jeux de données externes

papers.abstract

Les autoencodeurs parcimonieux (SAE) se sont imposés comme une solution prometteuse pour décomposer les représentations des grands modèles de langage en caractéristiques interprétables. Cependant, Paulo et Belrose (2025) ont mis en évidence une instabilité liée aux différentes initialisations aléatoires, tandis que Heap et al. (2025) ont souligné que les SAE pourraient ne pas capturer les caractéristiques internes des modèles. Ces problèmes découlent probablement de l'entraînement des SAE sur des ensembles de données externes – collectés sur le Web ou générés par un autre modèle – qui peuvent contenir des données hors distribution (OOD) dépassant les capacités de généralisation du modèle. Cela peut entraîner la création de caractéristiques hallucinées par les SAE, que nous qualifions de « Fake Features », qui déforment les activations internes du modèle. Pour résoudre ces problèmes, nous proposons FaithfulSAE, une méthode qui entraîne les SAE sur un ensemble de données synthétiques généré par le modèle lui-même. En utilisant FaithfulSAE, nous démontrons que l'entraînement des SAE sur des ensembles de données d'instructions moins OOD améliore leur stabilité face aux différentes initialisations. De manière notable, les FaithfulSAE surpassent les SAE entraînés sur des ensembles de données basés sur le Web dans la tâche de sondage des SAE et présentent un ratio de Fake Features plus faible pour 5 des 7 modèles testés. Globalement, notre approche élimine la dépendance aux ensembles de données externes, améliorant l'interprétabilité en capturant mieux les caractéristiques internes des modèles, tout en mettant en lumière l'importance souvent négligée des ensembles de données d'entraînement des SAE.

English

Sparse Autoencoders (SAEs) have emerged as a promising solution for decomposing large language model representations into interpretable features. However, Paulo and Belrose (2025) have highlighted instability across different initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not capture model-internal features. These problems likely stem from training SAEs on external datasets - either collected from the Web or generated by another model - which may contain out-of-distribution (OOD) data beyond the model's generalisation capabilities. This can result in hallucinated SAE features, which we term "Fake Features", that misrepresent the model's internal activations. To address these issues, we propose FaithfulSAE, a method that trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we demonstrate that training SAEs on less-OOD instruction datasets results in SAEs being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained on web-based datasets in the SAE probing task and exhibit a lower Fake Feature Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on external datasets, advancing interpretability by better capturing model-internal features while highlighting the often neglected importance of SAE training datasets.

FaithfulSAE : Vers la capture de caractéristiques fidèles avec des autoencodeurs épars sans dépendances à des jeux de données externes

FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

papers.abstract

Support