ChatPaper.aiChatPaper

Messung des Fortschritts beim Wörterbuchlernen für die Interpretierbarkeit von Sprachmodellen mit Brettspielmodellen

Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

July 31, 2024
Autoren: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks
cs.AI

Zusammenfassung

Welche latenten Merkmale sind in den Repräsentationen von Sprachmodellen (LM) codiert? Aktuelle Arbeiten zur Schulung von dünn besetzten Autoencodern (SAEs) zur Entflechtung interpretierbarer Merkmale in LM-Repräsentationen haben signifikantes Potenzial gezeigt. Die Bewertung der Qualität dieser SAEs ist jedoch schwierig, da uns eine Sammlung von interpretierbaren Merkmalen fehlt, die wir von guten SAEs erwarten, dass sie wiederherstellen. Daher schlagen wir vor, den Fortschritt im interpretierbaren Wörterbuchlernen zu messen, indem wir im Umfeld von LMs arbeiten, die auf Schach- und Othello-Transkripten trainiert wurden. Diese Umgebungen beinhalten natürliche Sammlungen von interpretierbaren Merkmalen - zum Beispiel "es gibt einen Springer auf F3" - die wir in überwachte Metriken für die Qualität von SAEs umsetzen. Um den Fortschritt im interpretierbaren Wörterbuchlernen zu lenken, führen wir eine neue SAE-Trainingstechnik ein, p-Annealing, die die Leistung sowohl bei früheren unüberwachten Metriken als auch bei unseren neuen Metriken verbessert.
English
What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features -- for example, "there is a knight on F3" -- which we leverage into supervised metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, p-annealing, which improves performance on prior unsupervised metrics as well as our new metrics.

Summary

AI-Generated Summary

PDF82November 28, 2024