Nascimento de um Transformer: Uma Perspectiva de Memória

Resumo

Modelos de linguagem de grande escala baseados em transformers têm alcançado grandes sucessos empíricos. No entanto, à medida que são implantados de forma mais ampla, há uma crescente necessidade de compreender melhor seus mecanismos internos para torná-los mais confiáveis. Esses modelos parecem armazenar grandes quantidades de conhecimento proveniente de seus dados de treinamento e se adaptar rapidamente a novas informações fornecidas em seu contexto ou prompt. Estudamos como os transformers equilibram esses dois tipos de conhecimento ao considerar uma configuração sintética em que os tokens são gerados a partir de distribuições de bigramas globais ou específicas ao contexto. Por meio de uma análise empírica cuidadosa do processo de treinamento em um transformer simplificado de duas camadas, ilustramos a rápida aprendizagem de bigramas globais e o desenvolvimento mais lento de um mecanismo de "cabeça de indução" para os bigramas no contexto. Destacamos o papel das matrizes de pesos como memórias associativas, fornecemos insights teóricos sobre como os gradientes permitem sua aprendizagem durante o treinamento e estudamos o papel das propriedades distribucionais dos dados.

English

Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an "induction head" mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.

Nascimento de um Transformer: Uma Perspectiva de Memória

Birth of a Transformer: A Memory Viewpoint

Resumo

Support