A Análise de Circuitos Escala em Interpretabilidade? Evidências a partir de Capacidades de Múltipla Escolha em Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla
July 18, 2023
Autores: Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik
cs.AI
Resumo
A análise de circuitos é uma técnica promissora para compreender os mecanismos internos dos modelos de linguagem. No entanto, as análises existentes são realizadas em modelos pequenos, distantes do estado da arte. Para abordar essa lacuna, apresentamos um estudo de caso de análise de circuitos no modelo Chinchilla de 70B, com o objetivo de testar a escalabilidade da análise de circuitos. Em particular, estudamos a tarefa de resposta a perguntas de múltipla escolha e investigamos a capacidade do Chinchilla de identificar o rótulo da resposta correta, dado o conhecimento do texto da resposta correta.
Descobrimos que as técnicas existentes de atribuição de logits, visualização de padrões de atenção e aplicação de patches de ativação escalam naturalmente para o Chinchilla, permitindo-nos identificar e categorizar um pequeno conjunto de "nós de saída" (cabeças de atenção e MLPs).
Além disso, estudamos a categoria de cabeças de atenção de "letra correta" com o objetivo de entender a semântica de suas características, com resultados mistos. Para respostas normais de perguntas de múltipla escolha, comprimimos significativamente os subespaços de consulta, chave e valor da cabeça sem perda de desempenho ao operar nos rótulos das respostas de múltipla escolha, e mostramos que os subespaços de consulta e chave representam, pelo menos em parte, uma característica de "N-ésimo item em uma enumeração". No entanto, quando tentamos usar essa explicação para entender o comportamento das cabeças em uma distribuição mais geral, incluindo rótulos de respostas randomizados, descobrimos que ela é apenas uma explicação parcial, sugerindo que há mais a aprender sobre a operação das cabeças de "letra correta" na tarefa de resposta a perguntas de múltipla escolha.
English
Circuit analysis is a promising technique for understanding the
internal mechanisms of language models. However, existing analyses are done in
small models far from the state of the art. To address this, we present a case
study of circuit analysis in the 70B Chinchilla model, aiming to test the
scalability of circuit analysis. In particular, we study multiple-choice
question answering, and investigate Chinchilla's capability to identify the
correct answer label given knowledge of the correct answer text.
We find that the existing techniques of logit attribution, attention pattern
visualization, and activation patching naturally scale to Chinchilla, allowing
us to identify and categorize a small set of `output nodes' (attention heads
and MLPs).
We further study the `correct letter' category of attention heads aiming to
understand the semantics of their features, with mixed results. For normal
multiple-choice question answers, we significantly compress the query, key and
value subspaces of the head without loss of performance when operating on the
answer labels for multiple-choice questions, and we show that the query and key
subspaces represent an `Nth item in an enumeration' feature to at least some
extent. However, when we attempt to use this explanation to understand the
heads' behaviour on a more general distribution including randomized answer
labels, we find that it is only a partial explanation, suggesting there is more
to learn about the operation of `correct letter' heads on multiple choice
question answering.