A Análise de Circuitos Escala em Interpretabilidade? Evidências a partir de Capacidades de Múltipla Escolha em Chinchilla

Resumo

A análise de circuitos é uma técnica promissora para compreender os mecanismos internos dos modelos de linguagem. No entanto, as análises existentes são realizadas em modelos pequenos, distantes do estado da arte. Para abordar essa lacuna, apresentamos um estudo de caso de análise de circuitos no modelo Chinchilla de 70B, com o objetivo de testar a escalabilidade da análise de circuitos. Em particular, estudamos a tarefa de resposta a perguntas de múltipla escolha e investigamos a capacidade do Chinchilla de identificar o rótulo da resposta correta, dado o conhecimento do texto da resposta correta. Descobrimos que as técnicas existentes de atribuição de logits, visualização de padrões de atenção e aplicação de patches de ativação escalam naturalmente para o Chinchilla, permitindo-nos identificar e categorizar um pequeno conjunto de "nós de saída" (cabeças de atenção e MLPs). Além disso, estudamos a categoria de cabeças de atenção de "letra correta" com o objetivo de entender a semântica de suas características, com resultados mistos. Para respostas normais de perguntas de múltipla escolha, comprimimos significativamente os subespaços de consulta, chave e valor da cabeça sem perda de desempenho ao operar nos rótulos das respostas de múltipla escolha, e mostramos que os subespaços de consulta e chave representam, pelo menos em parte, uma característica de "N-ésimo item em uma enumeração". No entanto, quando tentamos usar essa explicação para entender o comportamento das cabeças em uma distribuição mais geral, incluindo rótulos de respostas randomizados, descobrimos que ela é apenas uma explicação parcial, sugerindo que há mais a aprender sobre a operação das cabeças de "letra correta" na tarefa de resposta a perguntas de múltipla escolha.

English

Circuit analysis is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer label given knowledge of the correct answer text. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.

A Análise de Circuitos Escala em Interpretabilidade? Evidências a partir de Capacidades de Múltipla Escolha em Chinchilla

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Resumo

Support