Масштабируется ли интерпретируемость анализа цепей? Доказательства на основе способностей к множественному выбору у модели Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla
July 18, 2023
Авторы: Tom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik
cs.AI
Аннотация
Анализ схем является перспективным методом для понимания внутренних механизмов языковых моделей. Однако существующие исследования проводятся на небольших моделях, далеких от современных достижений. Чтобы устранить этот пробел, мы представляем кейс-стади анализа схем в модели Chinchilla с 70 миллиардами параметров, целью которого является проверка масштабируемости данного подхода. В частности, мы исследуем задачи с множественным выбором и изучаем способность Chinchilla определять правильный метку ответа при наличии знания правильного текста ответа.
Мы обнаруживаем, что существующие методы, такие как анализ вклада в логиты, визуализация паттернов внимания и модификация активаций, естественным образом масштабируются до Chinchilla, что позволяет нам идентифицировать и классифицировать небольшой набор «выходных узлов» (голов внимания и MLP).
Дополнительно мы исследуем категорию голов внимания, связанных с «правильной буквой», чтобы понять семантику их признаков, с неоднозначными результатами. Для стандартных задач с множественным выбором мы значительно сжимаем подпространства запросов, ключей и значений головы без потери производительности при работе с метками ответов, и показываем, что подпространства запросов и ключей в некоторой степени представляют признак «N-й элемент в перечислении». Однако, когда мы пытаемся использовать это объяснение для понимания поведения голов на более общем распределении, включающем рандомизированные метки ответов, обнаруживаем, что оно является лишь частичным, что указывает на необходимость дальнейшего изучения работы голов, связанных с «правильной буквой», в задачах с множественным выбором.
English
Circuit analysis is a promising technique for understanding the
internal mechanisms of language models. However, existing analyses are done in
small models far from the state of the art. To address this, we present a case
study of circuit analysis in the 70B Chinchilla model, aiming to test the
scalability of circuit analysis. In particular, we study multiple-choice
question answering, and investigate Chinchilla's capability to identify the
correct answer label given knowledge of the correct answer text.
We find that the existing techniques of logit attribution, attention pattern
visualization, and activation patching naturally scale to Chinchilla, allowing
us to identify and categorize a small set of `output nodes' (attention heads
and MLPs).
We further study the `correct letter' category of attention heads aiming to
understand the semantics of their features, with mixed results. For normal
multiple-choice question answers, we significantly compress the query, key and
value subspaces of the head without loss of performance when operating on the
answer labels for multiple-choice questions, and we show that the query and key
subspaces represent an `Nth item in an enumeration' feature to at least some
extent. However, when we attempt to use this explanation to understand the
heads' behaviour on a more general distribution including randomized answer
labels, we find that it is only a partial explanation, suggesting there is more
to learn about the operation of `correct letter' heads on multiple choice
question answering.