ダークマターの解読:ファウンデーションモデルにおける希少概念の解釈のための特殊なスパースオートエンコーダ
Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models
November 1, 2024
著者: Aashiq Muhamed, Mona Diab, Virginia Smith
cs.AI
要旨
基盤モデル(FMs)に関連する潜在的なリスクを理解し軽減するためには、効果的な解釈手法の開発が重要です。Sparse Autoencoders(SAEs)は、FMの表現を分解するための有望なツールとして登場していますが、データ内の希少でありながら重要な概念を捉えるのに苦労しています。私たちは、特化型Sparse Autoencoders(SSAEs)を紹介しました。これは、特定のサブドメインに焦点を当てることで、これらの難解なダークマター的特徴を明らかにすることを目的としています。SSAEsのトレーニングのための実用的な手順を提示し、データ選択のための密な検索と概念のリコールを改善するための傾斜付き経験リスク最小化の利点を示しています。我々のSSAEsの標準的なメトリクス(下流のPerplexityやL_0スパース性など)での評価によると、これらはサブドメインのテール概念を効果的に捉え、汎用SAEsの能力を上回っています。Bias in Biosデータセットのケーススタディでの実用的な有用性を紹介し、SSAEsが誤った性別情報を除去する際に最悪グループの分類精度を12.5%向上させることを示しています。SSAEsは、サブドメインにおけるFMsの内部機能をのぞくための強力な新しいレンズを提供します。
English
Understanding and mitigating the potential risks associated with foundation
models (FMs) hinges on developing effective interpretability methods. Sparse
Autoencoders (SAEs) have emerged as a promising tool for disentangling FM
representations, but they struggle to capture rare, yet crucial concepts in the
data. We introduce Specialized Sparse Autoencoders (SSAEs), designed to
illuminate these elusive dark matter features by focusing on specific
subdomains. We present a practical recipe for training SSAEs, demonstrating the
efficacy of dense retrieval for data selection and the benefits of Tilted
Empirical Risk Minimization as a training objective to improve concept recall.
Our evaluation of SSAEs on standard metrics, such as downstream perplexity and
L_0 sparsity, show that they effectively capture subdomain tail concepts,
exceeding the capabilities of general-purpose SAEs. We showcase the practical
utility of SSAEs in a case study on the Bias in Bios dataset, where SSAEs
achieve a 12.5\% increase in worst-group classification accuracy when applied
to remove spurious gender information. SSAEs provide a powerful new lens for
peering into the inner workings of FMs in subdomains.Summary
AI-Generated Summary