Nascita di un Transformer: Una Prospettiva sulla Memoria
Birth of a Transformer: A Memory Viewpoint
June 1, 2023
Autori: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
cs.AI
Abstract
I modelli linguistici di grandi dimensioni basati su trasformatori hanno ottenuto notevoli successi empirici. Tuttavia, man mano che vengono implementati più ampiamente, cresce la necessità di comprendere meglio i loro meccanismi interni per renderli più affidabili. Questi modelli sembrano memorizzare grandi quantità di conoscenza dai loro dati di addestramento e adattarsi rapidamente alle nuove informazioni fornite nel loro contesto o prompt. Studiamo come i trasformatori bilanciano questi due tipi di conoscenza considerando una configurazione sintetica in cui i token sono generati da distribuzioni di bigrammi globali o specifici del contesto. Attraverso un'attenta analisi empirica del processo di addestramento su un trasformatore semplificato a due strati, illustriamo l'apprendimento rapido dei bigrammi globali e lo sviluppo più lento di un meccanismo di "testa di induzione" per i bigrammi nel contesto. Evidenziamo il ruolo delle matrici dei pesi come memorie associative, forniamo intuizioni teoriche su come i gradienti ne abilitano l'apprendimento durante l'addestramento e studiamo il ruolo delle proprietà distribuzionali dei dati.
English
Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.