ChatPaper.aiChatPaper

언어 모델의 사전 학습 진행 상황 측정: 보드 게임 모델과의 해석 가능성

Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

July 31, 2024
저자: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks
cs.AI

초록

어떤 잠재적 특징이 언어 모델 (LM) 표현에 인코딩되어 있을까요? LM 표현에서 해석 가능한 특징을 분리하기 위해 희소 오토인코더(SAEs)를 훈련하는 최근 연구는 상당한 성과를 보여주었습니다. 그러나 이러한 SAEs의 품질을 평가하는 것은 어렵습니다. 왜냐하면 우리는 좋은 SAEs가 복구할 것으로 기대하는 해석 가능한 특징의 실제 모음이 부족하기 때문입니다. 따라서 우리는 체스와 오셀로 대본에서 훈련된 LM 설정에서 작업하여 해석 가능한 사전 학습의 진전을 측정하기로 제안합니다. 이러한 설정은 "F3에 나이트가 있다"와 같은 자연스러운 해석 가능한 특징의 모음을 가지고 있으며, 우리는 이를 SAE 품질에 대한 지도 지표로 활용합니다. 해석 가능한 사전 학습의 진전을 이끌기 위해 우리는 새로운 SAE 훈련 기술인 p-단열을 소개합니다. 이 기술은 이전의 비지도 메트릭뿐만 아니라 우리의 새로운 메트릭에서의 성능을 향상시킵니다.
English
What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features -- for example, "there is a knight on F3" -- which we leverage into supervised metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, p-annealing, which improves performance on prior unsupervised metrics as well as our new metrics.

Summary

AI-Generated Summary

PDF82November 28, 2024