Schaalt Circuit Analysis Interpretability? Bewijs uit Meervoudige Keuzevaardigheden in Chinchilla

Samenvatting

Circuit-analyse is een veelbelovende techniek om de interne mechanismen van taalmodelen te begrijpen. Bestaande analyses zijn echter uitgevoerd in kleine modellen die ver verwijderd zijn van de state-of-the-art. Om dit aan te pakken, presenteren we een casestudy van circuit-analyse in het 70B Chinchilla-model, met als doel de schaalbaarheid van circuit-analyse te testen. In het bijzonder bestuderen we meerkeuzevragen en onderzoeken we het vermogen van Chinchilla om het juiste antwoordlabel te identificeren op basis van kennis van de juiste antwoordtekst. We ontdekken dat de bestaande technieken van logit-attributie, visualisatie van aandachtspatronen en activatie-patching van nature schaalbaar zijn naar Chinchilla, waardoor we een kleine set van `output nodes' (aandachtskoppen en MLP's) kunnen identificeren en categoriseren. We bestuderen verder de categorie van `correcte letter'-aandachtskoppen om de semantiek van hun kenmerken te begrijpen, met gemengde resultaten. Voor normale meerkeuzevragen comprimeren we de query-, key- en value-subruimten van de kop aanzienlijk zonder prestatieverlies bij het verwerken van de antwoordlabels voor meerkeuzevragen, en we tonen aan dat de query- en key-subruimten tot op zekere hoogte een `N-de item in een opsomming'-kenmerk vertegenwoordigen. Wanneer we echter proberen deze verklaring te gebruiken om het gedrag van de koppen te begrijpen op een meer algemene verdeling, inclusief gerandomiseerde antwoordlabels, ontdekken we dat dit slechts een gedeeltelijke verklaring is, wat suggereert dat er meer te leren valt over de werking van `correcte letter'-koppen bij het beantwoorden van meerkeuzevragen.

English

Circuit analysis is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer label given knowledge of the correct answer text. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.

Schaalt Circuit Analysis Interpretability? Bewijs uit Meervoudige Keuzevaardigheden in Chinchilla

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Samenvatting

Support