Рождение Трансформера: взгляд с точки зрения памяти
Birth of a Transformer: A Memory Viewpoint
June 1, 2023
Авторы: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
cs.AI
Аннотация
Крупные языковые модели, основанные на архитектуре трансформеров, достигли значительных эмпирических успехов. Однако по мере их более широкого внедрения возникает растущая необходимость лучше понять их внутренние механизмы, чтобы сделать их более надежными. Эти модели, по-видимому, хранят огромные объемы знаний из своих обучающих данных и быстро адаптируются к новой информации, предоставляемой в их контексте или промпте. Мы исследуем, как трансформеры балансируют эти два типа знаний, рассматривая синтетическую установку, в которой токены генерируются либо из глобальных, либо из контекстно-зависимых биграммных распределений. С помощью тщательного эмпирического анализа процесса обучения на упрощенном двухслойном трансформере мы демонстрируем быстрое усвоение глобальных биграмм и более медленное развитие механизма "индукционной головы" для контекстных биграмм. Мы подчеркиваем роль матриц весов как ассоциативной памяти, предоставляем теоретические инсайты о том, как градиенты обеспечивают их обучение в процессе тренировки, и изучаем влияние свойств распределения данных.
English
Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.