Нейроны в крупных языковых моделях: неактивные, N-граммные, позиционные

Аннотация

Мы анализируем семейство крупных языковых моделей настолько легковесным способом, что это можно выполнить на одном графическом процессоре. В частности, мы сосредоточились на семействе моделей OPT с количеством параметров от 125 миллионов до 66 миллиардов, используя только информацию о том, активируется ли нейрон FFN или нет. Во-первых, мы обнаружили, что начальная часть сети является разреженной и представляет множество дискретных признаков. Здесь многие нейроны (более 70% в некоторых слоях модели с 66 миллиардами параметров) являются "мертвыми", то есть они никогда не активируются на большом наборе разнообразных данных. В то же время многие из активных нейронов зарезервированы для дискретных признаков и действуют как детекторы токенов и n-грамм. Интересно, что соответствующие обновления FFN не только способствуют выбору следующего токена, как можно было бы ожидать, но также явно сосредоточены на удалении информации о токенах, которые их активировали, то есть о текущем входе. Насколько нам известно, это первый пример механизмов, специализирующихся на удалении (а не добавлении) информации из остаточного потока. С увеличением масштаба модели становятся более разреженными в том смысле, что в них больше мертвых нейронов и детекторов токенов. Наконец, некоторые нейроны являются позиционными: их активация зависит в значительной (или исключительно) степени от позиции и в меньшей (или вовсе не зависит) от текстовых данных. Мы обнаружили, что меньшие модели имеют наборы нейронов, действующих как индикаторы диапазонов позиций, в то время как более крупные модели работают менее явным образом.

English

We analyze a family of large language models in such a lightweight manner that can be done on a single GPU. Specifically, we focus on the OPT family of models ranging from 125m to 66b parameters and rely only on whether an FFN neuron is activated or not. First, we find that the early part of the network is sparse and represents many discrete features. Here, many neurons (more than 70% in some layers of the 66b model) are "dead", i.e. they never activate on a large collection of diverse data. At the same time, many of the alive neurons are reserved for discrete features and act as token and n-gram detectors. Interestingly, their corresponding FFN updates not only promote next token candidates as could be expected, but also explicitly focus on removing the information about triggering them tokens, i.e., current input. To the best of our knowledge, this is the first example of mechanisms specialized at removing (rather than adding) information from the residual stream. With scale, models become more sparse in a sense that they have more dead neurons and token detectors. Finally, some neurons are positional: them being activated or not depends largely (or solely) on position and less so (or not at all) on textual data. We find that smaller models have sets of neurons acting as position range indicators while larger models operate in a less explicit manner.

Нейроны в крупных языковых моделях: неактивные, N-граммные, позиционные

Neurons in Large Language Models: Dead, N-gram, Positional

Аннотация

Support