Interpretierbare Embeddings mit Sparse Autoencodern: Ein Datenanalyse-Toolkit
Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit
December 10, 2025
papers.authors: Nick Jiang, Xiaoqing Sun, Lisa Dunlap, Lewis Smith, Neel Nanda
cs.AI
papers.abstract
Die Analyse umfangreicher Textkorpora stellt eine zentrale Herausforderung im Maschinellen Lernen dar und ist entscheidend für Aufgaben wie die Identifizierung unerwünschter Modellverhaltensweisen oder Verzerrungen in Trainingsdaten. Bisherige Methoden stützen sich oft auf kostspielige, auf großen Sprachmodellen (LLMs) basierende Techniken (z.B. die Annotation von Datensatzunterschieden) oder auf Dense-Embedding-Modelle (z.B. für Clustering), bei denen die Kontrolle über die relevanten Eigenschaften fehlt. Wir schlagen die Verwendung von Sparse Autoencodern (SAEs) vor, um SAE-Embeddings zu erzeugen: Repräsentationen, deren Dimensionen auf interpretierbare Konzepte abgebildet werden. Anhand von vier Datenanalyseteufgaben zeigen wir, dass SAE-Embeddings kosteneffizienter und zuverlässiger als LLMs sowie kontrollierbarer als Dense-Embeddings sind. Durch die Nutzung des großen Hypothesenraums von SAEs können wir Erkenntnisse gewinnen, wie (1) semantische Unterschiede zwischen Datensätzen und (2) unerwartete Konzeptkorrelationen in Dokumenten. Beispielsweise stellen wir durch den Vergleich von Modellantworten fest, dass Grok-4 häufiger Ambiguitäten klärt als neun andere Frontier-Modelle. Im Vergleich zu LLMs decken SAE-Embeddings größere Unterschiede bei 2-8x geringeren Kosten auf und identifizieren Verzerrungen zuverlässiger. Zusätzlich sind SAE-Embeddings kontrollierbar: Durch das Filtern von Konzepten können wir (3) Dokumente entlang interessierender Achsen clustern und (4) Dense-Embeddings beim eigenschaftsbasierten Retrieval übertreffen. Mithilfe von SAE-Embeddings untersuchen wir das Modellverhalten in zwei Fallstudien: Wir analysieren, wie sich das Verhalten von OpenAI-Modellen über die Zeit verändert hat, und finden "Trigger"-Phrasen, die Tulu-3 (Lambert et al., 2024) aus seinen Trainingsdaten gelernt hat. Diese Ergebnisse positionieren SAEs als vielseitiges Werkzeug für die Analyse unstrukturierter Daten und unterstreichen die vernachlässigte Bedeutung der Modellinterpretation durch ihre Daten.
English
Analyzing large-scale text corpora is a core challenge in machine learning, crucial for tasks like identifying undesirable model behaviors or biases in training data. Current methods often rely on costly LLM-based techniques (e.g. annotating dataset differences) or dense embedding models (e.g. for clustering), which lack control over the properties of interest. We propose using sparse autoencoders (SAEs) to create SAE embeddings: representations whose dimensions map to interpretable concepts. Through four data analysis tasks, we show that SAE embeddings are more cost-effective and reliable than LLMs and more controllable than dense embeddings. Using the large hypothesis space of SAEs, we can uncover insights such as (1) semantic differences between datasets and (2) unexpected concept correlations in documents. For instance, by comparing model responses, we find that Grok-4 clarifies ambiguities more often than nine other frontier models. Relative to LLMs, SAE embeddings uncover bigger differences at 2-8x lower cost and identify biases more reliably. Additionally, SAE embeddings are controllable: by filtering concepts, we can (3) cluster documents along axes of interest and (4) outperform dense embeddings on property-based retrieval. Using SAE embeddings, we study model behavior with two case studies: investigating how OpenAI model behavior has changed over time and finding "trigger" phrases learned by Tulu-3 (Lambert et al., 2024) from its training data. These results position SAEs as a versatile tool for unstructured data analysis and highlight the neglected importance of interpreting models through their data.