Test-Time-Skalierung macht Übertraining rechenoptimal.

Zusammenfassung

Moderne LLMs skalieren zur Testzeit, z.B. durch wiederholtes Sampling, wobei die Inferenzkosten mit der Modellgröße und der Anzahl der Samples steigen. Dies erzeugt einen Zielkonflikt, den Vor-Trainings-Skalierungsgesetze wie Chinchilla nicht adressieren. Wir präsentieren Train-to-Test (T²)-Skalierungsgesetze, die Modellgröße, Trainings-Tokens und die Anzahl der Inferenz-Samples unter festen End-to-End-Budgets gemeinsam optimieren. T² modernisiert Vor-Trainings-Skalierungsgesetze durch die Modellierung von pass@k, das für die Testzeit-Skalierung verwendet wird, und optimiert dann Vor-Trainings- und Testzeit-Entscheidungen gemeinsam. Prognosen von T² sind robust über verschiedene Modellierungsansätze hinweg: Sie messen den gemeinsamen Skalierungseffekt auf den Task-Loss und modellieren die Auswirkung auf die Task-Genauigkeit. Über acht Downstream-Tasks hinweg stellen wir fest, dass sich bei Berücksichtigung der Inferenzkosten die optimalen Vor-Trainings-Entscheidungen radikal in den Overtraining-Bereich verschieben, weit außerhalb des Bereichs standardmäßiger Vor-Trainings-Skalierungssuiten. Wir validieren unsere Ergebnisse, indem wir stark overtrainierte Modelle in dem von der T²-Skalierung prognostizierten optimalen Bereich vor-trainieren und deren deutlich stärkere Leistung im Vergleich zum alleinigen Vor-Trainings-Scaling bestätigen. Da Frontier-LLMs nachtrainiert werden, zeigen wir abschließend, dass unsere Erkenntnisse die Nach-Trainings-Phase überdauern, was T²-Skalierung in modernen Deployment-Szenarien bedeutungsvoll macht.

English

Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.

Test-Time-Skalierung macht Übertraining rechenoptimal.

Test-Time Scaling Makes Overtraining Compute-Optimal

Zusammenfassung

Support