La mise à l'échelle au moment du test rend le surapprentissage optimal en termes de calcul

Résumé

Les LLM modernes sont mis à l'échelle au moment du test, par exemple via un échantillonnage répété, où le coût de l'inférence augmente avec la taille du modèle et le nombre d'échantillons. Cela crée un compromis que les lois d'échelle de pré-entraînement, comme Chinchilla, n'abordent pas. Nous présentons les lois d'échelle Train-to-Test (T²) qui optimisent conjointement la taille du modèle, les jetons d'entraînement et le nombre d'échantillons d'inférence sous des budgets fixes de bout en bout. T² modernise les lois d'échelle de pré-entraînement avec la modélisation pass@k utilisée pour la mise à l'échelle au moment du test, puis optimise conjointement les décisions de pré-entraînement et de test. Les prévisions de T² sont robustes sur différentes approches de modélisation : mesure de l'effet d'échelle conjoint sur la perte de tâche et modélisation de l'impact sur la précision de la tâche. Sur huit tâches en aval, nous constatons que lorsque le coût de l'inférence est pris en compte, les décisions optimales de pré-entraînement se déplacent radicalement vers le régime de surentraînement, bien au-delà de la plage des suites d'échelle de pré-entraînement standard. Nous validons nos résultats en pré-entraînant des modèles fortement surentraînés dans la région optimale que prévoit l'échelle T², confirmant leurs performances substantiellement supérieures par rapport au seul pré-entraînement. Enfin, comme les LLM de pointe sont post-entraînés, nous montrons que nos résultats persistent après l'étape de post-entraînement, rendant l'échelle T² significative dans les déploiements modernes.

English

Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.

La mise à l'échelle au moment du test rend le surapprentissage optimal en termes de calcul

Test-Time Scaling Makes Overtraining Compute-Optimal

Résumé

Support