Nascimento de um Transformer: Uma Perspectiva de Memória
Birth of a Transformer: A Memory Viewpoint
June 1, 2023
Autores: Alberto Bietti, Vivien Cabannes, Diane Bouchacourt, Herve Jegou, Leon Bottou
cs.AI
Resumo
Modelos de linguagem de grande escala baseados em transformers têm alcançado grandes sucessos empíricos. No entanto, à medida que são implantados de forma mais ampla, há uma crescente necessidade de compreender melhor seus mecanismos internos para torná-los mais confiáveis. Esses modelos parecem armazenar grandes quantidades de conhecimento proveniente de seus dados de treinamento e se adaptar rapidamente a novas informações fornecidas em seu contexto ou prompt. Estudamos como os transformers equilibram esses dois tipos de conhecimento ao considerar uma configuração sintética em que os tokens são gerados a partir de distribuições de bigramas globais ou específicas ao contexto. Por meio de uma análise empírica cuidadosa do processo de treinamento em um transformer simplificado de duas camadas, ilustramos a rápida aprendizagem de bigramas globais e o desenvolvimento mais lento de um mecanismo de "cabeça de indução" para os bigramas no contexto. Destacamos o papel das matrizes de pesos como memórias associativas, fornecemos insights teóricos sobre como os gradientes permitem sua aprendizagem durante o treinamento e estudamos o papel das propriedades distribucionais dos dados.
English
Large language models based on transformers have achieved great empirical
successes. However, as they are deployed more widely, there is a growing need
to better understand their internal mechanisms in order to make them more
reliable. These models appear to store vast amounts of knowledge from their
training data, and to adapt quickly to new information provided in their
context or prompt. We study how transformers balance these two types of
knowledge by considering a synthetic setup where tokens are generated from
either global or context-specific bigram distributions. By a careful empirical
analysis of the training process on a simplified two-layer transformer, we
illustrate the fast learning of global bigrams and the slower development of an
"induction head" mechanism for the in-context bigrams. We highlight the role of
weight matrices as associative memories, provide theoretical insights on how
gradients enable their learning during training, and study the role of
data-distributional properties.