Repræsentations interprétables par autoencodeurs épars : une boîte à outils pour l'analyse de données

papers.abstract

L'analyse de grands corpus textuels est un défi central en apprentissage automatique, cruciale pour des tâches telles que l'identification de comportements indésirables des modèles ou de biais dans les données d'entraînement. Les méthodes actuelles reposent souvent sur des techniques coûteuses basées sur les LLM (par exemple, l'annotation des différences entre jeux de données) ou sur des modèles à embeddings denses (par exemple, pour le clustering), qui n'offrent aucun contrôle sur les propriétés d'intérêt. Nous proposons d'utiliser des autoencodeurs épars (SAE) pour créer des embeddings SAE : des représentations dont les dimensions correspondent à des concepts interprétables. À travers quatre tâches d'analyse de données, nous montrons que les embeddings SAE sont plus rentables et fiables que les LLM et plus contrôlables que les embeddings denses. En utilisant le large espace d'hypothèses des SAE, nous pouvons découvrir des insights tels que (1) des différences sémantiques entre jeux de données et (2) des corrélations inattendues entre concepts dans les documents. Par exemple, en comparant les réponses des modèles, nous constatons que Grok-4 clarifie les ambiguïtés plus souvent que neuf autres modèles de pointe. Par rapport aux LLM, les embeddings SAE révèlent des différences plus importantes à un coût 2 à 8 fois inférieur et identifient les biais de manière plus fiable. De plus, les embeddings SAE sont contrôlables : en filtrant les concepts, nous pouvons (3) regrouper les documents selon des axes d'intérêt et (4) surpasser les embeddings denses pour la recherche basée sur des propriétés. En utilisant les embeddings SAE, nous étudions le comportement des modèles avec deux études de cas : l'examen de l'évolution du comportement des modèles d'OpenAI au fil du temps et la découverte de phrases "déclencheurs" apprises par Tulu-3 (Lambert et al., 2024) à partir de ses données d'entraînement. Ces résultats positionnent les SAE comme un outil polyvalent pour l'analyse de données non structurées et soulignent l'importance négligée de l'interprétation des modèles par le biais de leurs données.

English

Analyzing large-scale text corpora is a core challenge in machine learning, crucial for tasks like identifying undesirable model behaviors or biases in training data. Current methods often rely on costly LLM-based techniques (e.g. annotating dataset differences) or dense embedding models (e.g. for clustering), which lack control over the properties of interest. We propose using sparse autoencoders (SAEs) to create SAE embeddings: representations whose dimensions map to interpretable concepts. Through four data analysis tasks, we show that SAE embeddings are more cost-effective and reliable than LLMs and more controllable than dense embeddings. Using the large hypothesis space of SAEs, we can uncover insights such as (1) semantic differences between datasets and (2) unexpected concept correlations in documents. For instance, by comparing model responses, we find that Grok-4 clarifies ambiguities more often than nine other frontier models. Relative to LLMs, SAE embeddings uncover bigger differences at 2-8x lower cost and identify biases more reliably. Additionally, SAE embeddings are controllable: by filtering concepts, we can (3) cluster documents along axes of interest and (4) outperform dense embeddings on property-based retrieval. Using SAE embeddings, we study model behavior with two case studies: investigating how OpenAI model behavior has changed over time and finding "trigger" phrases learned by Tulu-3 (Lambert et al., 2024) from its training data. These results position SAEs as a versatile tool for unstructured data analysis and highlight the neglected importance of interpreting models through their data.

Repræsentations interprétables par autoencodeurs épars : une boîte à outils pour l'analyse de données

Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit

papers.abstract

Support