Geburt eines Transformers: Eine Gedächtnisperspektive
Birth of a Transformer: A Memory Viewpoint
June 1, 2023
papers.authors: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
cs.AI
papers.abstract
Große Sprachmodelle, die auf Transformern basieren, haben große empirische Erfolge erzielt. Da sie jedoch immer breiter eingesetzt werden, besteht ein zunehmender Bedarf, ihre internen Mechanismen besser zu verstehen, um sie zuverlässiger zu machen. Diese Modelle scheinen große Mengen an Wissen aus ihren Trainingsdaten zu speichern und sich schnell an neue Informationen anzupassen, die in ihrem Kontext oder Prompt bereitgestellt werden. Wir untersuchen, wie Transformer diese beiden Arten von Wissen ausbalancieren, indem wir ein synthetisches Setup betrachten, in dem Token entweder aus globalen oder kontextspezifischen Bigramm-Verteilungen generiert werden. Durch eine sorgfältige empirische Analyse des Trainingsprozesses an einem vereinfachten zweischichtigen Transformer verdeutlichen wir das schnelle Lernen globaler Bigramme und die langsamere Entwicklung eines „Induktionskopf“-Mechanismus für die In-Context-Bigramme. Wir heben die Rolle von Gewichtsmatrizen als assoziative Speicher hervor, liefern theoretische Einblicke, wie Gradienten deren Lernen während des Trainings ermöglichen, und untersuchen die Rolle von datenverteilungsspezifischen Eigenschaften.
English
Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.