Измерение Прогресса в Обучении Словарей для Моделей Языка с Помощью Моделей настольных игр
Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models
July 31, 2024
Авторы: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks
cs.AI
Аннотация
Какие скрытые признаки закодированы в представлениях языковых моделей (LM)?
Недавние исследования по обучению разреженных автокодировщиков (SAE) для разделения интерпретируемых признаков в представлениях LM показали значительный потенциал. Однако оценка качества этих SAE затруднена из-за отсутствия коллекции истинных интерпретируемых признаков, которые мы ожидаем, что хорошие SAE смогут восстановить. Поэтому мы предлагаем измерять прогресс в обучении интерпретируемого словаря, работая в условиях LM, обученных на транскриптах шахмат и Отелло. Эти условия содержат естественные коллекции интерпретируемых признаков - например, "на F3 стоит конь" - которые мы используем для оценки качества SAE с помощью надзорных метрик. Для направления прогресса в обучении интерпретируемого словаря мы представляем новую технику обучения SAE, p-отжиг, которая улучшает производительность по сравнению с предыдущими ненадзорными метриками, а также нашими новыми метриками.
English
What latent features are encoded in language model (LM) representations?
Recent work on training sparse autoencoders (SAEs) to disentangle interpretable
features in LM representations has shown significant promise. However,
evaluating the quality of these SAEs is difficult because we lack a
ground-truth collection of interpretable features that we expect good SAEs to
recover. We thus propose to measure progress in interpretable dictionary
learning by working in the setting of LMs trained on chess and Othello
transcripts. These settings carry natural collections of interpretable features
-- for example, "there is a knight on F3" -- which we leverage into
supervised metrics for SAE quality. To guide progress in
interpretable dictionary learning, we introduce a new SAE training technique,
p-annealing, which improves performance on prior unsupervised
metrics as well as our new metrics.Summary
AI-Generated Summary