Wat leren taalmodellen en wanneer? De hypothese van het impliciete curriculum.

Samenvatting

Grootschalige taalmodelen (LLM's) kunnen opmerkelijk complexe taken uitvoeren, maar de fijnmazige details over hoe deze vaardigheden ontstaan tijdens de voorafgaande training blijven slecht begrepen. Schaalwetten voor validatieverlies laten zien hoeveel een model verbetert met extra rekenkracht, maar niet welke vaardigheden het in welke volgorde verwerft. Om dit te verhelpen, stellen we de Hypothese van het Impliciete Curriculum voor: voorafgaande training volgt een compositioneel en voorspelbaar curriculum dat consistent is over verschillende modellen en datamengsels. We testen dit door een reeks eenvoudige, composeerbare taken te ontwerpen die zich uitstrekken over retrieval, morfologische transformaties, coreferentie, logisch redeneren en wiskunde. Met behulp van deze taken volgen we de opkomstpunten in vier modelfamilies, variërend in grootte van 410 miljoen tot 13 miljard parameters. We ontdekken dat de volgorde waarin modellen vaste nauwkeurigheidsdrempels bereiken opvallend consistent is (ρ = 0,81 over 45 modelparen), en dat samengestelde taken meestal pas ontstaan na hun componenttaken. Verder stellen we vast dat deze structuur is gecodeerd in de modelrepresentaties: taken met vergelijkbare 'function vector'-representaties volgen ook vaak vergelijkbare trajecten tijdens de training. Door gebruik te maken van de ruimte van representaties die zijn afgeleid van onze taakset, kunnen we de trainingstrajecten van eenvoudige, buiten beschouwing gelaten compositionele taken effectief voorspellen gedurende de hele voorafgaande training (R² = 0,68-0,84 over de modellen) zonder ze vooraf te evalueren. Samen suggereren deze resultaten dat voorafgaande training meer gestructureerd is dan verliescurves doen vermoeden: vaardigheden ontstaan in een compositionele volgorde die consistent is over modellen en die afleesbaar is uit hun interne toestand.

English

Large language models (LLMs) can perform remarkably complex tasks, yet the fine-grained details of how these capabilities emerge during pretraining remain poorly understood. Scaling laws on validation loss tell us how much a model improves with additional compute, but not what skills it acquires in which order. To remedy this, we propose the Implicit Curriculum Hypothesis: pretraining follows a compositional and predictable curriculum across models and data mixtures. We test this by designing a suite of simple, composable tasks spanning retrieval, morphological transformations, coreference, logical reasoning, and mathematics. Using these tasks, we track emergence points across four model families spanning sizes from 410M-13B parameters. We find that emergence orderings of when models reach fixed accuracy thresholds are strikingly consistent (ρ= .81 across 45 model pairs), and that composite tasks most often emerge after their component tasks. Furthermore, we find that this structure is encoded in model representations: tasks with similar function vector representations also tend to follow similar trajectories in training. By using the space of representations derived from our task set, we can effectively predict the training trajectories of simple held-out compositional tasks throughout the course of pretraining (R^2 = .68-.84 across models) without previously evaluating them. Together, these results suggest that pretraining is more structured than loss curves reveal: skills emerge in a compositional order that is consistent across models and readable from their internals.

Wat leren taalmodellen en wanneer? De hypothese van het impliciete curriculum.

What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Samenvatting

Support