Voorschrijvend schalen onthult de evolutie van taalmodellen

Samenvatting

Bij de inzet van foundation-modellen hebben praktijkmensen steeds vaker behoefte aan prescriptieve schaalwetten: gegeven een rekenbudget voor voorafgaande training, welke downstreamnauwkeurigheid is haalbaar met hedendaagse post-trainingpraktijken, en hoe stabiel is die relatie naarmate het vakgebied evolueert? Met behulp van grootschalige observationele evaluaties met 5k observationele en 2k nieuw bemonsterde gegevens over modelprestaties schatten we prestatiegrenzen in – hoge conditionele kwantielen van benchmark scores als functie van log voorafgaande trainings-FLOPs – via gegladde kwantielregressie met een monotone, verzadigende sigmoïde parameterisatie. We valideren de temporele betrouwbaarheid door te fitten op eerdere modelgeneraties en te evalueren op latere releases. Over verschillende taken zijn de geschatte grenzen grotendeels stabiel, met uitzondering van wiskundig redeneren, dat een consistent voortschrijdende grens vertoont in de tijd. Vervolgens breiden we onze aanpak uit om taakafhankelijke verzadiging te analyseren en om contaminatiegerelateerde verschuivingen in wiskundige redeneertaken te onderzoeken. Ten slotte introduceren we een efficiënt algoritme dat bijna volledige datagrenzen herstelt met ongeveer 20% van het evaluatiebudget. Samen brengt ons werk Proteus 2k uit, de nieuwste dataset voor evaluatie van modelprestaties, en introduceert het een praktische methodologie om rekenbudgetten om te zetten in betrouwbare prestatieverwachtingen en om te monitoren wanneer prestatiegrenzen in de tijd verschuiven.

English

For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.

Voorschrijvend schalen onthult de evolutie van taalmodellen

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Samenvatting

Support