Neurones de régulation de la confiance dans les modèles de langage
Confidence Regulation Neurons in Language Models
June 24, 2024
Auteurs: Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda
cs.AI
Résumé
Malgré leur utilisation généralisée, les mécanismes par lesquels les grands modèles de langage (LLMs) représentent et régulent l'incertitude dans les prédictions de tokens suivants restent largement inexplorés. Cette étude examine deux composants critiques censés influencer cette incertitude : les neurones d'entropie récemment découverts et un nouvel ensemble de composants que nous appelons neurones de fréquence de tokens. Les neurones d'entropie se caractérisent par une norme de poids inhabituellement élevée et influencent l'échelle de normalisation de la couche finale (LayerNorm) pour réduire efficacement les logits. Notre travail montre que les neurones d'entropie opèrent en écrivant sur un espace nul de désintégration, leur permettant d'affecter la norme du flux résiduel avec un effet direct minimal sur les logits eux-mêmes. Nous observons la présence de neurones d'entropie dans une gamme de modèles, allant jusqu'à 7 milliards de paramètres. D'autre part, les neurones de fréquence de tokens, que nous découvrons et décrivons ici pour la première fois, augmentent ou suppriment le logit de chaque token proportionnellement à sa fréquence logarithmique, déplaçant ainsi la distribution de sortie vers ou loin de la distribution unigramme. Enfin, nous présentons une étude de cas détaillée où les neurones d'entropie gèrent activement la confiance dans le contexte de l'induction, c'est-à-dire la détection et la continuation de sous-séquences répétées.
English
Despite their widespread use, the mechanisms by which large language models
(LLMs) represent and regulate uncertainty in next-token predictions remain
largely unexplored. This study investigates two critical components believed to
influence this uncertainty: the recently discovered entropy neurons and a new
set of components that we term token frequency neurons. Entropy neurons are
characterized by an unusually high weight norm and influence the final layer
normalization (LayerNorm) scale to effectively scale down the logits. Our work
shows that entropy neurons operate by writing onto an unembedding null space,
allowing them to impact the residual stream norm with minimal direct effect on
the logits themselves. We observe the presence of entropy neurons across a
range of models, up to 7 billion parameters. On the other hand, token frequency
neurons, which we discover and describe here for the first time, boost or
suppress each token's logit proportionally to its log frequency, thereby
shifting the output distribution towards or away from the unigram distribution.
Finally, we present a detailed case study where entropy neurons actively manage
confidence in the setting of induction, i.e. detecting and continuing repeated
subsequences.Summary
AI-Generated Summary