Neuronen in großen Sprachmodellen: Tot, N-Gramm, Positionell
Neurons in Large Language Models: Dead, N-gram, Positional
September 9, 2023
Autoren: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
cs.AI
Zusammenfassung
Wir analysieren eine Familie von großen Sprachmodellen auf eine so leichtgewichtige Weise, dass dies auf einer einzelnen GPU durchgeführt werden kann. Konkret konzentrieren wir uns auf die OPT-Modellfamilie, die von 125 Millionen bis zu 66 Milliarden Parametern reicht, und stützen uns dabei ausschließlich darauf, ob ein FFN-Neuron aktiviert ist oder nicht. Zunächst stellen wir fest, dass der frühe Teil des Netzwerks spärlich besetzt ist und viele diskrete Merkmale repräsentiert. Hier sind viele Neuronen (in einigen Schichten des 66-Milliarden-Modells mehr als 70 %) „tot“, d. h. sie werden bei einer großen Sammlung von diversen Daten nie aktiviert. Gleichzeitig sind viele der aktiven Neuronen für diskrete Merkmale reserviert und fungieren als Token- und N-Gramm-Detektoren. Interessanterweise fördern ihre entsprechenden FFN-Aktualisierungen nicht nur, wie zu erwarten wäre, die nächsten Token-Kandidaten, sondern konzentrieren sich auch explizit darauf, die Informationen über die sie auslösenden Token, d. h. die aktuellen Eingaben, zu entfernen. Nach unserem besten Wissen ist dies das erste Beispiel für Mechanismen, die spezialisiert darauf sind, Informationen aus dem Residualstrom zu entfernen (anstatt sie hinzuzufügen). Mit zunehmender Skalierung werden die Modelle in dem Sinne spärlicher, dass sie mehr tote Neuronen und Token-Detektoren aufweisen. Schließlich gibt es einige Neuronen, die positionsabhängig sind: Ihre Aktivierung hängt weitgehend (oder ausschließlich) von der Position und weniger (oder gar nicht) von den Textdaten ab. Wir stellen fest, dass kleinere Modelle Gruppen von Neuronen haben, die als Positionsbereichsindikatoren fungieren, während größere Modelle auf eine weniger explizite Weise arbeiten.
English
We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.