Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes

Resumo

Grokking, ou seja, o desempenho em testes continua melhorando muito tempo após a convergência da perda de treinamento, foi recentemente observado no treinamento de redes neurais, tornando o mecanismo de generalização e outras capacidades emergentes, como o raciocínio, misteriosos. Enquanto estudos anteriores geralmente treinam modelos pequenos em algumas tarefas específicas ou de brinquedo por milhares de épocas, realizamos o primeiro estudo de grokking em checkpoints durante o pré-treinamento de uma única passagem de um modelo de linguagem grande (LLM) de 7B, ou seja, o OLMoE. Calculamos a perda de treinamento e avaliamos a generalização em diversas tarefas de benchmark, incluindo raciocínio matemático, geração de código e tarefas de recuperação de conhecimento de senso comum/específico de domínio. Nosso estudo, pela primeira vez, verifica que o grokking ainda ocorre no pré-treinamento de modelos de base em grande escala, embora diferentes dados possam entrar em estágios de grokking de forma assíncrona. Além disso, desmistificamos a "emergência da generalização" do grokking investigando a dinâmica interna do LLM. Especificamente, descobrimos que os caminhos das amostras de treinamento (ou seja, as escolhas de especialistas entre as camadas) evoluem de aleatórios e específicos para a instância para mais estruturados e compartilháveis entre as amostras durante o grokking. Além disso, a complexidade do caminho de uma amostra diminui apesar da perda convergida. Isso indica uma conversão de memorização para generalização, fornecendo uma explicação mecanicista da generalização tardia. No estudo, desenvolvemos duas novas métricas para quantificar a distância do caminho e a complexidade de um único caminho. Mostramos sua capacidade de prever a melhoria da generalização em diversas tarefas downstream. Elas são eficientes, simples de calcular e dependem exclusivamente dos dados de treinamento. Portanto, têm valor prático para o pré-treinamento, permitindo-nos monitorar o desempenho de generalização sem ajuste fino e teste. Teoricamente, mostramos que caminhos mais estruturados reduzem a complexidade do modelo e melhoram o limite de generalização.

English

Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.

Onde encontrar o Grokking no Pré-treinamento de LLM? Monitorando a Transição de Memorização para Generalização sem Testes

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Resumo

Support