Neurônios em Modelos de Linguagem de Grande Escala: Mortos, N-gram, Posicionais

Resumo

Analisamos uma família de modelos de linguagem de grande escala de uma maneira tão leve que pode ser feita em uma única GPU. Especificamente, focamos na família de modelos OPT, que variam de 125 milhões a 66 bilhões de parâmetros, e dependemos apenas de saber se um neurônio FFN está ativado ou não. Primeiro, descobrimos que a parte inicial da rede é esparsa e representa muitos recursos discretos. Aqui, muitos neurônios (mais de 70% em algumas camadas do modelo de 66 bilhões) estão "mortos", ou seja, nunca se ativam em uma grande coleção de dados diversos. Ao mesmo tempo, muitos dos neurônios ativos são reservados para características discretas e atuam como detectores de tokens e n-gramas. Curiosamente, suas atualizações FFN correspondentes não apenas promovem candidatos ao próximo token, como seria de se esperar, mas também se concentram explicitamente em remover as informações sobre os tokens que os ativaram, ou seja, a entrada atual. Até onde sabemos, este é o primeiro exemplo de mecanismos especializados em remover (em vez de adicionar) informações do fluxo residual. Com o aumento de escala, os modelos se tornam mais esparsos no sentido de que possuem mais neurônios mortos e detectores de tokens. Por fim, alguns neurônios são posicionais: o fato de estarem ativados ou não depende amplamente (ou exclusivamente) da posição e menos (ou nada) dos dados textuais. Descobrimos que modelos menores possuem conjuntos de neurônios que atuam como indicadores de intervalo de posição, enquanto modelos maiores operam de maneira menos explícita.

English

We analyze a family of large language models in such a lightweight manner that can be done on a single GPU. Specifically, we focus on the OPT family of models ranging from 125m to 66b parameters and rely only on whether an FFN neuron is activated or not. First, we find that the early part of the network is sparse and represents many discrete features. Here, many neurons (more than 70% in some layers of the 66b model) are "dead", i.e. they never activate on a large collection of diverse data. At the same time, many of the alive neurons are reserved for discrete features and act as token and n-gram detectors. Interestingly, their corresponding FFN updates not only promote next token candidates as could be expected, but also explicitly focus on removing the information about triggering them tokens, i.e., current input. To the best of our knowledge, this is the first example of mechanisms specialized at removing (rather than adding) information from the residual stream. With scale, models become more sparse in a sense that they have more dead neurons and token detectors. Finally, some neurons are positional: them being activated or not depends largely (or solely) on position and less so (or not at all) on textual data. We find that smaller models have sets of neurons acting as position range indicators while larger models operate in a less explicit manner.

Neurônios em Modelos de Linguagem de Grande Escala: Mortos, N-gram, Posicionais

Neurons in Large Language Models: Dead, N-gram, Positional

Resumo

Support