ChatPaper.aiChatPaper

Waar vind je Grokking in LLM-pretraining? Monitor Memorisatie-naar-Generalizatie zonder Test

Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

June 26, 2025
Auteurs: Ziyue Li, Chenrui Fan, Tianyi Zhou
cs.AI

Samenvatting

Grokking, d.w.z. dat de testprestaties blijven verbeteren lang nadat de trainingsverlies is geconvergeerd, is recentelijk waargenomen bij het trainen van neurale netwerken, wat het mechanisme van generalisatie en andere opkomende capaciteiten zoals redeneren mysterieus maakt. Terwijl eerdere studies meestal kleine modellen trainen op een paar speelse of zeer specifieke taken voor duizenden epochs, voeren wij de eerste studie uit van grokking op checkpoints tijdens een eenmalige pretraining van een groot taalmodel (LLM) van 7B, namelijk OLMoE. We berekenen het trainingsverlies en evalueren de generalisatie op diverse benchmarktaken, waaronder wiskundig redeneren, codegeneratie en taken voor het ophalen van algemene kennis en domeinspecifieke kennis. Onze studie bevestigt voor het eerst dat grokking nog steeds plaatsvindt tijdens de pretraining van grootschalige foundationmodellen, hoewel verschillende gegevens asynchroon de grokkingfasen kunnen ingaan. We ontrafelen verder het "opkomen van generalisatie" van grokking door de interne dynamiek van LLM's te onderzoeken. Specifiek vinden we dat de paden van trainingsvoorbeelden (d.w.z. expertkeuzes over lagen heen) evolueren van willekeurig, voorbeeld-specifiek naar meer gestructureerd en deelbaar tussen voorbeelden tijdens grokking. Ook neemt de complexiteit van het pad van een voorbeeld af ondanks het geconvergeerde verlies. Dit wijst op een conversie van memorisatie naar generalisatie, wat een mechanistische verklaring biedt voor vertraagde generalisatie. In de studie ontwikkelen we twee nieuwe metrieken om de padafstand en de complexiteit van een enkel pad te kwantificeren. We tonen hun vermogen aan om de verbetering van generalisatie op diverse downstreamtaken te voorspellen. Ze zijn efficiënt, eenvoudig te berekenen en uitsluitend afhankelijk van trainingsgegevens. Daarom hebben ze praktische waarde voor pretraining, waardoor we de generalisatieprestaties kunnen monitoren zonder finetuning en testen. Theoretisch tonen we aan dat meer gestructureerde paden de modelcomplexiteit verminderen en de generalisatiegrens verbeteren.
English
Grokking, i.e., test performance keeps improving long after training loss converged, has been recently witnessed in neural network training, making the mechanism of generalization and other emerging capabilities such as reasoning mysterious. While prior studies usually train small models on a few toy or highly-specific tasks for thousands of epochs, we conduct the first study of grokking on checkpoints during one-pass pretraining of a 7B large language model (LLM), i.e., OLMoE. We compute the training loss and evaluate generalization on diverse benchmark tasks, including math reasoning, code generation, and commonsense/domain-specific knowledge retrieval tasks. Our study, for the first time, verifies that grokking still happens in the pretraining of large-scale foundation models, though different data may enter grokking stages asynchronously. We further demystify grokking's "emergence of generalization" by investigating LLM internal dynamics. Specifically, we find that training samples' pathways (i.e., expert choices across layers) evolve from random, instance-specific to more structured and shareable between samples during grokking. Also, the complexity of a sample's pathway reduces despite the converged loss. These indicate a memorization-to-generalization conversion, providing a mechanistic explanation of delayed generalization. In the study, we develop two novel metrics to quantify pathway distance and the complexity of a single pathway. We show their ability to predict the generalization improvement on diverse downstream tasks. They are efficient, simple to compute and solely dependent on training data. Hence, they have practical value for pretraining, enabling us to monitor the generalization performance without finetuning and test. Theoretically, we show that more structured pathways reduce model complexity and improve the generalization bound.
PDF272June 27, 2025