L'analisi dei circuiti scala nell'interpretabilità? Evidenze dalle capacità a scelta multipla in Chinchilla

Abstract

L'analisi dei circuiti è una tecnica promettente per comprendere i meccanismi interni dei modelli linguistici. Tuttavia, le analisi esistenti sono state condotte su modelli di piccole dimensioni, lontani dallo stato dell'arte. Per affrontare questa limitazione, presentiamo uno studio di caso sull'analisi dei circuiti nel modello Chinchilla da 70B, con l'obiettivo di testare la scalabilità di questa tecnica. In particolare, studiamo il task di risposta a domande a scelta multipla e investigiamo la capacità di Chinchilla di identificare l'etichetta della risposta corretta data la conoscenza del testo della risposta corretta. Riscontriamo che le tecniche esistenti di attribuzione dei logit, visualizzazione dei pattern di attenzione e patching delle attivazioni si adattano naturalmente a Chinchilla, permettendoci di identificare e categorizzare un piccolo insieme di "nodi di output" (teste di attenzione e MLP). Approfondiamo inoltre lo studio delle teste di attenzione della categoria "lettera corretta" con l'obiettivo di comprendere la semantica delle loro caratteristiche, ottenendo risultati contrastanti. Per le normali risposte a domande a scelta multipla, comprimiamo significativamente i sottospazi di query, key e value della testa senza perdita di prestazioni quando operiamo sulle etichette delle risposte, e dimostriamo che i sottospazi di query e key rappresentano, almeno in parte, una caratteristica di "N-esimo elemento in un'enumerazione". Tuttavia, quando tentiamo di utilizzare questa spiegazione per comprendere il comportamento delle teste su una distribuzione più generale che include etichette di risposta randomizzate, scopriamo che si tratta solo di una spiegazione parziale, suggerendo che c'è ancora molto da apprendere sul funzionamento delle teste "lettera corretta" nel task di risposta a domande a scelta multipla.

English

Circuit analysis is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer label given knowledge of the correct answer text. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.

L'analisi dei circuiti scala nell'interpretabilità? Evidenze dalle capacità a scelta multipla in Chinchilla

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Abstract

Support