Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test

Abstract

Grokking, ovvero il miglioramento continuo delle prestazioni sui test molto tempo dopo la convergenza della loss di addestramento, è stato recentemente osservato nell'addestramento di reti neurali, rendendo misteriosi i meccanismi di generalizzazione e altre capacità emergenti come il ragionamento. Mentre gli studi precedenti addestrano solitamente modelli di piccole dimensioni su pochi compiti giocattolo o altamente specifici per migliaia di epoche, noi conduciamo il primo studio sul grokking utilizzando checkpoint durante il pretraining in un'unica passata di un modello linguistico di grandi dimensioni (LLM) da 7B, ovvero OLMoE. Calcoliamo la loss di addestramento e valutiamo la generalizzazione su una varietà di benchmark, tra cui ragionamento matematico, generazione di codice e compiti di recupero di conoscenza di senso comune o specifica di dominio. Il nostro studio, per la prima volta, verifica che il grokking si verifica ancora durante il pretraining di modelli di fondazione su larga scala, sebbene diversi dati possano entrare nelle fasi di grokking in modo asincrono. Demistifichiamo ulteriormente l'"emergenza della generalizzazione" del grokking investigando le dinamiche interne degli LLM. In particolare, scopriamo che i percorsi dei campioni di addestramento (ovvero, le scelte degli esperti attraverso i livelli) evolvono da casuali e specifici per l'istanza a più strutturati e condivisibili tra i campioni durante il grokking. Inoltre, la complessità del percorso di un campione si riduce nonostante la loss convergente. Questi risultati indicano una conversione da memorizzazione a generalizzazione, fornendo una spiegazione meccanicistica della generalizzazione ritardata. Nello studio, sviluppiamo due nuove metriche per quantificare la distanza dei percorsi e la complessità di un singolo percorso. Dimostriamo la loro capacità di prevedere il miglioramento della generalizzazione su una varietà di compiti downstream. Sono efficienti, semplici da calcolare e dipendono esclusivamente dai dati di addestramento. Pertanto, hanno un valore pratico per il pretraining, permettendoci di monitorare le prestazioni di generalizzazione senza fine-tuning e test. Teoricamente, dimostriamo che percorsi più strutturati riducono la complessità del modello e migliorano il limite di generalizzazione.

English

Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.

Dove trovare il Grokking nel Pretraining dei Modelli Linguistici? Monitorare la Transizione da Memorizzazione a Generalizzazione senza Test

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Abstract

Support