Neuronen in grote taalmmodellen: dood, N-gram, positioneel
Neurons in Large Language Models: Dead, N-gram, Positional
September 9, 2023
Auteurs: Elena Voita, Javier Ferrando, Christoforos Nalmpantis
cs.AI
Samenvatting
We analyseren een familie van grote taalmodellen op een lichtgewicht manier die op een enkele GPU kan worden uitgevoerd. Specifiek richten we ons op de OPT-familie van modellen, variërend van 125 miljoen tot 66 miljard parameters, en vertrouwen we alleen op of een FFN-neuron geactiveerd is of niet. Ten eerste vinden we dat het vroege deel van het netwerk spaarzaam is en veel discrete kenmerken vertegenwoordigt. Hier zijn veel neuronen (meer dan 70% in sommige lagen van het 66 miljard model) "dood", wat betekent dat ze nooit activeren op een grote verzameling diverse data. Tegelijkertijd zijn veel van de actieve neuronen gereserveerd voor discrete kenmerken en fungeren ze als token- en n-gram-detectoren. Interessant is dat hun corresponderende FFN-updates niet alleen volgende token-kandidaten bevorderen, zoals verwacht zou kunnen worden, maar ook expliciet gericht zijn op het verwijderen van informatie over de tokens die hen activeren, d.w.z. de huidige invoer. Voor zover wij weten, is dit het eerste voorbeeld van mechanismen die gespecialiseerd zijn in het verwijderen (in plaats van toevoegen) van informatie uit de reststroom. Naarmate de schaal toeneemt, worden modellen spaarzamer in de zin dat ze meer dode neuronen en token-detectoren hebben. Ten slotte zijn sommige neuronen positioneel: of ze geactiveerd worden, hangt grotendeels (of uitsluitend) af van de positie en minder (of helemaal niet) van tekstuele data. We vinden dat kleinere modellen sets van neuronen hebben die fungeren als positiebereikindicatoren, terwijl grotere modellen op een minder expliciete manier werken.
English
We analyze a family of large language models in such a lightweight manner
that can be done on a single GPU. Specifically, we focus on the OPT family of
models ranging from 125m to 66b parameters and rely only on whether an FFN
neuron is activated or not. First, we find that the early part of the network
is sparse and represents many discrete features. Here, many neurons (more than
70% in some layers of the 66b model) are "dead", i.e. they never activate on a
large collection of diverse data. At the same time, many of the alive neurons
are reserved for discrete features and act as token and n-gram detectors.
Interestingly, their corresponding FFN updates not only promote next token
candidates as could be expected, but also explicitly focus on removing the
information about triggering them tokens, i.e., current input. To the best of
our knowledge, this is the first example of mechanisms specialized at removing
(rather than adding) information from the residual stream. With scale, models
become more sparse in a sense that they have more dead neurons and token
detectors. Finally, some neurons are positional: them being activated or not
depends largely (or solely) on position and less so (or not at all) on textual
data. We find that smaller models have sets of neurons acting as position range
indicators while larger models operate in a less explicit manner.