ChatPaper.aiChatPaper

해석 가능한 임베딩 생성: 희소 오토인코더를 활용한 데이터 분석 도구 키트

Interpretable Embeddings with Sparse Autoencoders: A Data Analysis Toolkit

December 10, 2025
저자: Nick Jiang, Xiaoqing Sun, Lisa Dunlap, Lewis Smith, Neel Nanda
cs.AI

초록

대규모 텍스트 코퍼스 분석은 바람직하지 않은 모델 동작이나 훈련 데이터 내 편향 식별과 같은 작업에 핵심적인 기계 학습의 주요 과제입니다. 기존 방법은 종종 비용이 많이 드는 LLM 기반 기술(예: 데이터셋 차이 주석 달기)이나 밀집 임베딩 모델(예: 군집화용)에 의존하며, 이는 관심 속성에 대한 제어가 부족합니다. 우리는 희소 오토인코더(SAE)를 활용해 SAE 임베딩을 생성하는 방법을 제안합니다. 이는 차원이 해석 가능한 개념에 매핑되는 표현법입니다. 네 가지 데이터 분석 작업을 통해 SAE 임베딩이 LLM보다 비용 효율적이고 신뢰할 수 있으며, 밀집 임베딩보다 제어 가능함을 보여줍니다. SAE의 광범위한 가설 공간을 이용하여 (1) 데이터셋 간의 의미론적 차이와 (2) 문서 내 예상치 못한 개념 상관관계와 같은 통찰력을 발견할 수 있습니다. 예를 들어, 모델 응답을 비교함으로써 Grok-4가 다른 9개의 최첨단 모델보다 모호성을 더 자주 명확히 한다는 사실을 발견했습니다. LLM 대비 SAE 임베딩은 2~8배 낮은 비용으로 더 큰 차이를 발견하고 편향을 더 신뢰성 있게 식별합니다. 또한 SAE 임베딩은 제어 가능합니다: 개념을 필터링하여 (3) 관심 축을 따라 문서를 군집화하고 (4) 속성 기반 검색에서 밀집 임베딩을 능가할 수 있습니다. SAE 임베딩을 활용하여 두 가지 사례 연구를 통해 모델 동작을 분석합니다: OpenAI 모델 동작이 시간에 따라 어떻게 변화했는지 조사하고, Tulu-3(Lambert et al., 2024)이 훈련 데이터에서 학습한 "트리거" 문구를 발견합니다. 이러한 결과는 SAE를 비정형 데이터 분석의 다목적 도구로 자리매김하며, 데이터를 통해 모델을 해석하는 중요성이 간과되어 왔음을 강조합니다.
English
Analyzing large-scale text corpora is a core challenge in machine learning, crucial for tasks like identifying undesirable model behaviors or biases in training data. Current methods often rely on costly LLM-based techniques (e.g. annotating dataset differences) or dense embedding models (e.g. for clustering), which lack control over the properties of interest. We propose using sparse autoencoders (SAEs) to create SAE embeddings: representations whose dimensions map to interpretable concepts. Through four data analysis tasks, we show that SAE embeddings are more cost-effective and reliable than LLMs and more controllable than dense embeddings. Using the large hypothesis space of SAEs, we can uncover insights such as (1) semantic differences between datasets and (2) unexpected concept correlations in documents. For instance, by comparing model responses, we find that Grok-4 clarifies ambiguities more often than nine other frontier models. Relative to LLMs, SAE embeddings uncover bigger differences at 2-8x lower cost and identify biases more reliably. Additionally, SAE embeddings are controllable: by filtering concepts, we can (3) cluster documents along axes of interest and (4) outperform dense embeddings on property-based retrieval. Using SAE embeddings, we study model behavior with two case studies: investigating how OpenAI model behavior has changed over time and finding "trigger" phrases learned by Tulu-3 (Lambert et al., 2024) from its training data. These results position SAEs as a versatile tool for unstructured data analysis and highlight the neglected importance of interpreting models through their data.
PDF22December 17, 2025