Naissance d'un Transformer : Une Perspective Mémoire
Birth of a Transformer: A Memory Viewpoint
June 1, 2023
Auteurs: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
cs.AI
Résumé
Les grands modèles de langage basés sur des transformateurs ont obtenu d'importants succès empiriques. Cependant, à mesure qu'ils sont déployés plus largement, il devient de plus en plus nécessaire de mieux comprendre leurs mécanismes internes afin de les rendre plus fiables. Ces modèles semblent stocker de vastes quantités de connaissances issues de leurs données d'entraînement et s'adapter rapidement aux nouvelles informations fournies dans leur contexte ou leur prompt. Nous étudions comment les transformateurs équilibrent ces deux types de connaissances en considérant un cadre synthétique où les tokens sont générés à partir de distributions de bigrammes globaux ou spécifiques au contexte. Par une analyse empirique minutieuse du processus d'entraînement sur un transformateur simplifié à deux couches, nous illustrons l'apprentissage rapide des bigrammes globaux et le développement plus lent d'un mécanisme de "tête d'induction" pour les bigrammes en contexte. Nous mettons en lumière le rôle des matrices de poids en tant que mémoires associatives, fournissons des insights théoriques sur la manière dont les gradients permettent leur apprentissage pendant l'entraînement, et étudions le rôle des propriétés distributionnelles des données.
English
Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.