Neuronas en Modelos de Lenguaje a Gran Escala: Muertas, N-grama, Posicionales
Neurons in Large Language Models: Dead, N-gram, Positional
September 9, 2023
Autores: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
cs.AI
Resumen
Analizamos una familia de modelos de lenguaje grande de una manera tan ligera que puede realizarse en una sola GPU. Específicamente, nos enfocamos en la familia de modelos OPT, que van desde 125 millones hasta 66 mil millones de parámetros, y nos basamos únicamente en si una neurona de la red feed-forward (FFN) se activa o no. En primer lugar, encontramos que la parte inicial de la red es dispersa y representa muchas características discretas. Aquí, muchas neuronas (más del 70% en algunas capas del modelo de 66 mil millones) están "muertas", es decir, nunca se activan en una gran colección de datos diversos. Al mismo tiempo, muchas de las neuronas activas están reservadas para características discretas y actúan como detectores de tokens y n-gramas. Curiosamente, sus actualizaciones correspondientes en la FFN no solo promueven candidatos para el siguiente token, como podría esperarse, sino que también se enfocan explícitamente en eliminar la información sobre los tokens que las activan, es decir, la entrada actual. Hasta donde sabemos, este es el primer ejemplo de mecanismos especializados en eliminar (en lugar de agregar) información del flujo residual. Con el aumento de escala, los modelos se vuelven más dispersos en el sentido de que tienen más neuronas muertas y detectores de tokens. Finalmente, algunas neuronas son posicionales: su activación depende en gran medida (o únicamente) de la posición y menos (o nada) de los datos textuales. Encontramos que los modelos más pequeños tienen conjuntos de neuronas que actúan como indicadores de rangos de posición, mientras que los modelos más grandes operan de una manera menos explícita.
English
We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.