Embeddings Interpretáveis com Autoencoders Esparsos: Um Kit de Ferramentas para Análise de Dados

Resumo

A análise de grandes corpora de texto é um desafio central no aprendizado de máquina, crucial para tarefas como a identificação de comportamentos indesejáveis de modelos ou vieses nos dados de treinamento. Os métodos atuais frequentemente dependem de técnicas dispendiosas baseadas em LLMs (por exemplo, anotação de diferenças em conjuntos de dados) ou modelos de incorporação densa (por exemplo, para clustering), que não permitem controlar as propriedades de interesse. Propomos o uso de autoencoders esparsos (SAEs) para criar incorporações SAE: representações cujas dimensões mapeiam conceitos interpretáveis. Por meio de quatro tarefas de análise de dados, mostramos que as incorporações SAE são mais econômicas e confiáveis do que LLMs e mais controláveis do que as incorporações densas. Utilizando o grande espaço de hipóteses dos SAEs, podemos descobrir *insights*, como (1) diferenças semânticas entre conjuntos de dados e (2) correlações inesperadas de conceitos em documentos. Por exemplo, ao comparar respostas de modelos, descobrimos que o Grok-4 esclarece ambiguidades com mais frequência do que outros nove modelos de fronteira. Em relação aos LLMs, as incorporações SAE revelam diferenças maiores a um custo 2 a 8 vezes menor e identificam vieses com mais confiabilidade. Além disso, as incorporações SAE são controláveis: ao filtrar conceitos, podemos (3) agrupar documentos ao longo de eixos de interesse e (4) superar as incorporações densas na recuperação de informações baseada em propriedades. Utilizando as incorporações SAE, estudamos o comportamento do modelo com dois estudos de caso: investigando como o comportamento dos modelos da OpenAI mudou ao longo do tempo e descobrindo frases "gatilho" aprendidas pelo Tulu-3 (Lambert et al., 2024) a partir de seus dados de treinamento. Esses resultados posicionam os SAEs como uma ferramenta versátil para a análise de dados não estruturados e destacam a importância negligenciada de interpretar modelos por meio de seus dados.

English

Analyzing large-scale text corpora is a core challenge in machine learning, crucial for tasks like identifying undesirable model behaviors or biases in training data. Current methods often rely on costly LLM-based techniques (e.g. annotating dataset differences) or dense embedding models (e.g. for clustering), which lack control over the properties of interest. We propose using sparse autoencoders (SAEs) to create SAE embeddings: representations whose dimensions map to interpretable concepts. Through four data analysis tasks, we show that SAE embeddings are more cost-effective and reliable than LLMs and more controllable than dense embeddings. Using the large hypothesis space of SAEs, we can uncover insights such as (1) semantic differences between datasets and (2) unexpected concept correlations in documents. For instance, by comparing model responses, we find that Grok-4 clarifies ambiguities more often than nine other frontier models. Relative to LLMs, SAE embeddings uncover bigger differences at 2-8x lower cost and identify biases more reliably. Additionally, SAE embeddings are controllable: by filtering concepts, we can (3) cluster documents along axes of interest and (4) outperform dense embeddings on property-based retrieval. Using SAE embeddings, we study model behavior with two case studies: investigating how OpenAI model behavior has changed over time and finding "trigger" phrases learned by Tulu-3 (Lambert et al., 2024) from its training data. These results position SAEs as a versatile tool for unstructured data analysis and highlight the neglected importance of interpreting models through their data.

Embeddings Interpretáveis com Autoencoders Esparsos: Um Kit de Ferramentas para Análise de Dados

Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit

Resumo

Support