Geboorte van een Transformer: Een Geheugenperspectief

Samenvatting

Grote taalmodellen gebaseerd op transformatoren hebben grote empirische successen behaald. Naarmate ze echter breder worden ingezet, is er een groeiende behoefte om hun interne mechanismen beter te begrijpen om ze betrouwbaarder te maken. Deze modellen lijken enorme hoeveelheden kennis uit hun trainingsdata op te slaan en zich snel aan te passen aan nieuwe informatie die in hun context of prompt wordt aangeboden. Wij onderzoeken hoe transformatoren deze twee soorten kennis in balans brengen door een synthetische opzet te beschouwen waarin tokens worden gegenereerd uit globale of context-specifieke bigram-verdelingen. Door een zorgvuldige empirische analyse van het trainingsproces op een vereenvoudigde tweelaagse transformator, illustreren we het snelle leren van globale bigrams en de tragere ontwikkeling van een "inductiekop"-mechanisme voor de in-context bigrams. We benadrukken de rol van gewichtsmatrices als associatieve geheugens, bieden theoretische inzichten in hoe gradiënten hun leren tijdens de training mogelijk maken, en bestuderen de rol van data-distributie-eigenschappen.

English

Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an "induction head" mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.

Geboorte van een Transformer: Een Geheugenperspectief

Birth of a Transformer: A Memory Viewpoint

Samenvatting

Support