Neuroni nei Modelli Linguistici di Grandi Dimensioni: Morti, N-gram, Posizionali
Neurons in Large Language Models: Dead, N-gram, Positional
September 9, 2023
Autori: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
cs.AI
Abstract
Analizziamo una famiglia di modelli linguistici di grandi dimensioni in modo così leggero da poter essere eseguito su una singola GPU. Nello specifico, ci concentriamo sulla famiglia di modelli OPT, che vanno da 125 milioni a 66 miliardi di parametri, e ci basiamo esclusivamente sul fatto che un neurone FFN sia attivato o meno. In primo luogo, osserviamo che la parte iniziale della rete è sparsa e rappresenta molte caratteristiche discrete. Qui, molti neuroni (più del 70% in alcuni strati del modello da 66 miliardi) sono "morti", cioè non si attivano mai su un'ampia raccolta di dati diversificati. Allo stesso tempo, molti dei neuroni attivi sono riservati a caratteristiche discrete e agiscono come rilevatori di token e n-grammi. È interessante notare che i loro corrispondenti aggiornamenti FFN non solo promuovono i candidati per il token successivo, come ci si potrebbe aspettare, ma si concentrano anche esplicitamente sulla rimozione delle informazioni relative ai token che li attivano, cioè l'input corrente. Per quanto ne sappiamo, questo è il primo esempio di meccanismi specializzati nella rimozione (piuttosto che nell'aggiunta) di informazioni dal flusso residuo. Con l'aumento delle dimensioni, i modelli diventano più sparsi nel senso che hanno più neuroni morti e rilevatori di token. Infine, alcuni neuroni sono posizionali: il fatto che siano attivati o meno dipende in gran parte (o esclusivamente) dalla posizione e meno (o per niente) dai dati testuali. Troviamo che i modelli più piccoli hanno insiemi di neuroni che agiscono come indicatori di intervalli di posizione, mentre i modelli più grandi operano in modo meno esplicito.
English
We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.