¿Escala la interpretabilidad del análisis de circuitos? Evidencia de capacidades de opción múltiple en Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla
July 18, 2023
Autores: Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik
cs.AI
Resumen
El análisis de circuitos es una técnica prometedora para comprender los mecanismos internos de los modelos de lenguaje. Sin embargo, los análisis existentes se realizan en modelos pequeños, lejos del estado del arte. Para abordar esto, presentamos un estudio de caso de análisis de circuitos en el modelo Chinchilla de 70B, con el objetivo de probar la escalabilidad del análisis de circuitos. En particular, estudiamos la respuesta a preguntas de opción múltiple e investigamos la capacidad de Chinchilla para identificar la etiqueta de la respuesta correcta dado el conocimiento del texto de la respuesta correcta.
Encontramos que las técnicas existentes de atribución de logits, visualización de patrones de atención y parcheo de activaciones escalan naturalmente a Chinchilla, lo que nos permite identificar y categorizar un pequeño conjunto de "nodos de salida" (cabezas de atención y MLPs).
Además, estudiamos la categoría de cabezas de atención de "letra correcta" con el objetivo de comprender la semántica de sus características, con resultados mixtos. Para respuestas normales de preguntas de opción múltiple, comprimimos significativamente los subespacios de consulta, clave y valor de la cabeza sin pérdida de rendimiento al operar en las etiquetas de respuesta de preguntas de opción múltiple, y demostramos que los subespacios de consulta y clave representan, al menos en cierta medida, una característica de "N-ésimo elemento en una enumeración". Sin embargo, cuando intentamos usar esta explicación para comprender el comportamiento de las cabezas en una distribución más general que incluye etiquetas de respuesta aleatorizadas, encontramos que es solo una explicación parcial, lo que sugiere que hay más por aprender sobre el funcionamiento de las cabezas de "letra correcta" en la respuesta a preguntas de opción múltiple.
English
Circuit analysis is a promising technique for understanding the
internal mechanisms of language models. However, existing analyses are done in
small models far from the state of the art. To address this, we present a case
study of circuit analysis in the 70B Chinchilla model, aiming to test the
scalability of circuit analysis. In particular, we study multiple-choice
question answering, and investigate Chinchilla's capability to identify the
correct answer label given knowledge of the correct answer text.
We find that the existing techniques of logit attribution, attention pattern
visualization, and activation patching naturally scale to Chinchilla, allowing
us to identify and categorize a small set of `output nodes' (attention heads
and MLPs).
We further study the `correct letter' category of attention heads aiming to
understand the semantics of their features, with mixed results. For normal
multiple-choice question answers, we significantly compress the query, key and
value subspaces of the head without loss of performance when operating on the
answer labels for multiple-choice questions, and we show that the query and key
subspaces represent an `Nth item in an enumeration' feature to at least some
extent. However, when we attempt to use this explanation to understand the
heads' behaviour on a more general distribution including randomized answer
labels, we find that it is only a partial explanation, suggesting there is more
to learn about the operation of `correct letter' heads on multiple choice
question answering.