言語モデルの解釈可能性における辞書学習の進捗測定:ボードゲームモデルを用いたアプローチ
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models
July 31, 2024
著者: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks
cs.AI
要旨
言語モデル(LM)の表現にはどのような潜在的特徴が符号化されているのか?
最近の研究では、スパースオートエンコーダ(SAE)を訓練してLM表現内の解釈可能な特徴を分離する手法が注目を集めています。しかし、優れたSAEが回復すべき解釈可能な特徴の真の集合が存在しないため、これらのSAEの品質を評価することは困難です。そこで我々は、チェスとオセロの棋譜を学習したLMの設定下で作業することで、解釈可能な辞書学習の進捗を測定することを提案します。これらの設定には自然な解釈可能な特徴の集合が含まれており、例えば「F3にナイトが存在する」といった特徴を活用して、SAEの品質を評価するための教師あり指標を構築します。解釈可能な辞書学習の進捗を導くために、我々は新しいSAE訓練手法であるp-annealingを導入し、これまでの教師なし指標だけでなく、新たに提案した指標においても性能を向上させます。
English
What latent features are encoded in language model (LM) representations?
Recent work on training sparse autoencoders (SAEs) to disentangle interpretable
features in LM representations has shown significant promise. However,
evaluating the quality of these SAEs is difficult because we lack a
ground-truth collection of interpretable features that we expect good SAEs to
recover. We thus propose to measure progress in interpretable dictionary
learning by working in the setting of LMs trained on chess and Othello
transcripts. These settings carry natural collections of interpretable features
-- for example, "there is a knight on F3" -- which we leverage into
supervised metrics for SAE quality. To guide progress in
interpretable dictionary learning, we introduce a new SAE training technique,
p-annealing, which improves performance on prior unsupervised
metrics as well as our new metrics.Summary
AI-Generated Summary