ChatPaper.aiChatPaper

FaithfulSAE: Auf dem Weg zur Erfassung treuer Merkmale mit spärlichen Autoencodern ohne externe Datensatzabhängigkeiten

FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

June 21, 2025
Autoren: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI

Zusammenfassung

Sparse Autoencoder (SAEs) haben sich als vielversprechende Lösung zur Zerlegung von Repräsentationen großer Sprachmodelle in interpretierbare Merkmale erwiesen. Allerdings haben Paulo und Belrose (2025) Instabilitäten bei verschiedenen Initialisierungs-Seeds aufgezeigt, und Heap et al. (2025) haben darauf hingewiesen, dass SAEs möglicherweise keine modellinternen Merkmale erfassen. Diese Probleme rühren wahrscheinlich daher, dass SAEs auf externen Datensätzen trainiert werden – entweder aus dem Web gesammelt oder von einem anderen Modell generiert –, die out-of-distribution (OOD)-Daten enthalten können, die über die Generalisierungsfähigkeiten des Modells hinausgehen. Dies kann zu halluzinierten SAE-Merkmalen führen, die wir als „Fake Features“ bezeichnen und die die internen Aktivierungen des Modells falsch darstellen. Um diese Probleme zu lösen, schlagen wir FaithfulSAE vor, eine Methode, die SAEs auf dem synthetischen Datensatz des Modells selbst trainiert. Mit FaithfulSAEs zeigen wir, dass das Training von SAEs auf weniger OOD-Instruktionsdatensätzen zu einer höheren Stabilität der SAEs über verschiedene Seeds hinweg führt. Bemerkenswerterweise übertreffen FaithfulSAEs SAEs, die auf webbasierten Datensätzen trainiert wurden, in der SAE-Probing-Aufgabe und weisen in 5 von 7 Modellen ein geringeres Fake-Feature-Verhältnis auf. Insgesamt eliminiert unser Ansatz die Abhängigkeit von externen Datensätzen und fördert die Interpretierbarkeit, indem modellinterne Merkmale besser erfasst werden, während gleichzeitig die oft vernachlässigte Bedeutung von SAE-Trainingsdatensätzen hervorgehoben wird.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for decomposing large language model representations into interpretable features. However, Paulo and Belrose (2025) have highlighted instability across different initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not capture model-internal features. These problems likely stem from training SAEs on external datasets - either collected from the Web or generated by another model - which may contain out-of-distribution (OOD) data beyond the model's generalisation capabilities. This can result in hallucinated SAE features, which we term "Fake Features", that misrepresent the model's internal activations. To address these issues, we propose FaithfulSAE, a method that trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we demonstrate that training SAEs on less-OOD instruction datasets results in SAEs being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained on web-based datasets in the SAE probing task and exhibit a lower Fake Feature Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on external datasets, advancing interpretability by better capturing model-internal features while highlighting the often neglected importance of SAE training datasets.
PDF41June 24, 2025