Neurônios em Modelos de Linguagem de Grande Escala: Mortos, N-gram, Posicionais
Neurons in Large Language Models: Dead, N-gram, Positional
September 9, 2023
Autores: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
cs.AI
Resumo
Analisamos uma família de modelos de linguagem de grande escala de uma maneira tão leve que pode ser feita em uma única GPU. Especificamente, focamos na família de modelos OPT, que variam de 125 milhões a 66 bilhões de parâmetros, e dependemos apenas de saber se um neurônio FFN está ativado ou não. Primeiro, descobrimos que a parte inicial da rede é esparsa e representa muitos recursos discretos. Aqui, muitos neurônios (mais de 70% em algumas camadas do modelo de 66 bilhões) estão "mortos", ou seja, nunca se ativam em uma grande coleção de dados diversos. Ao mesmo tempo, muitos dos neurônios ativos são reservados para características discretas e atuam como detectores de tokens e n-gramas. Curiosamente, suas atualizações FFN correspondentes não apenas promovem candidatos ao próximo token, como seria de se esperar, mas também se concentram explicitamente em remover as informações sobre os tokens que os ativaram, ou seja, a entrada atual. Até onde sabemos, este é o primeiro exemplo de mecanismos especializados em remover (em vez de adicionar) informações do fluxo residual. Com o aumento de escala, os modelos se tornam mais esparsos no sentido de que possuem mais neurônios mortos e detectores de tokens. Por fim, alguns neurônios são posicionais: o fato de estarem ativados ou não depende amplamente (ou exclusivamente) da posição e menos (ou nada) dos dados textuais. Descobrimos que modelos menores possuem conjuntos de neurônios que atuam como indicadores de intervalo de posição, enquanto modelos maiores operam de maneira menos explícita.
English
We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.