Neurones dans les grands modèles de langage : Morts, N-grammes, Positionnels

Résumé

Nous analysons une famille de grands modèles de langage de manière si légère qu'elle peut être réalisée sur un seul GPU. Plus précisément, nous nous concentrons sur la famille de modèles OPT, allant de 125 millions à 66 milliards de paramètres, et nous nous appuyons uniquement sur l'activation ou non d'un neurone de réseau feed-forward (FFN). Tout d'abord, nous constatons que la partie initiale du réseau est sparse et représente de nombreuses caractéristiques discrètes. Ici, de nombreux neurones (plus de 70 % dans certaines couches du modèle de 66 milliards) sont "morts", c'est-à-dire qu'ils ne s'activent jamais sur un large ensemble de données diversifiées. Parallèlement, de nombreux neurones actifs sont réservés à des caractéristiques discrètes et agissent comme des détecteurs de tokens et de n-grammes. Fait intéressant, leurs mises à jour FFN correspondantes ne font pas que promouvoir les candidats pour le token suivant, comme on pourrait s'y attendre, mais se concentrent également explicitement sur la suppression des informations concernant les tokens qui les déclenchent, c'est-à-dire l'entrée actuelle. À notre connaissance, il s'agit du premier exemple de mécanismes spécialisés dans la suppression (plutôt que l'ajout) d'informations du flux résiduel. Avec l'augmentation de l'échelle, les modèles deviennent plus sparses dans le sens où ils possèdent davantage de neurones morts et de détecteurs de tokens. Enfin, certains neurones sont positionnels : leur activation dépend largement (ou uniquement) de la position et moins (ou pas du tout) des données textuelles. Nous constatons que les modèles plus petits possèdent des ensembles de neurones agissant comme des indicateurs de plage de position, tandis que les modèles plus grands opèrent de manière moins explicite.

English

We analyze a family of large language models in such a lightweight manner that can be done on a single GPU. Specifically, we focus on the OPT family of models ranging from 125m to 66b parameters and rely only on whether an FFN neuron is activated or not. First, we find that the early part of the network is sparse and represents many discrete features. Here, many neurons (more than 70% in some layers of the 66b model) are "dead", i.e. they never activate on a large collection of diverse data. At the same time, many of the alive neurons are reserved for discrete features and act as token and n-gram detectors. Interestingly, their corresponding FFN updates not only promote next token candidates as could be expected, but also explicitly focus on removing the information about triggering them tokens, i.e., current input. To the best of our knowledge, this is the first example of mechanisms specialized at removing (rather than adding) information from the residual stream. With scale, models become more sparse in a sense that they have more dead neurons and token detectors. Finally, some neurons are positional: them being activated or not depends largely (or solely) on position and less so (or not at all) on textual data. We find that smaller models have sets of neurons acting as position range indicators while larger models operate in a less explicit manner.

Neurones dans les grands modèles de langage : Morts, N-grammes, Positionnels

Neurons in Large Language Models: Dead, N-gram, Positional

Résumé

Support