Test-Time Scaling Maakt Overtraining Compute-Optimaal

Samenvatting

Moderne LLM's schalen tijdens het testen, bijvoorbeeld via herhaalde steekproefname, waarbij de inferentiekosten toenemen met de modelgrootte en het aantal steekproeven. Dit creëert een afweging die voorafgaande schalingswetten, zoals Chinchilla, niet adresseren. Wij presenteren Train-to-Test (T^2) schalingswetten die modelgrootte, trainingsdata (tokens) en het aantal inferentiesteekproeven gezamenlijk optimaliseren binnen vaste end-to-end budgetten. T^2 moderniseert voorafgaande schalingswetten door pass@k-modellering te gebruiken voor testtijd-schaling, en optimaliseert vervolgens beslissingen over voorafgaande training en testtijd gezamenlijk. Voorspellingen van T^2 zijn robuust over verschillende modelleringsbenaderingen: ze meten het gezamenlijke schalingseffect op de taakverlies en modelleren de impact op de taaknauwkeurigheid. Over acht downstreamtaken stellen we vast dat, wanneer rekening wordt gehouden met inferentiekosten, optimale beslissingen voor voorafgaande training radicaal verschuiven naar het overtraind regime, ver buiten het bereik van standaard voorafgaande schalingssuites. We valideren onze resultaten door zwaar overtrainde modellen voor te trainen in het optimale gebied dat T^2-schaling voorspelt, en bevestigen hun aanzienlijk sterkere prestaties in vergelijking met alleen voorafgaande trainingsschaling. Ten slotte, omdat frontier-LLM's na-training ondergaan, tonen we aan dat onze bevindingen de na-trainingsfase overleven, waardoor T^2-schaling betekenisvol is in moderne implementaties.

English

Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.

Test-Time Scaling Maakt Overtraining Compute-Optimaal

Test-Time Scaling Makes Overtraining Compute-Optimal

Samenvatting

Support