El Escalado en Tiempo de Prueba Hace que el Sobreentrenamiento Sea Óptimo en Cómputo
Test-Time Scaling Makes Overtraining Compute-Optimal
April 1, 2026
Autores: Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
cs.AI
Resumen
Los LLM modernos escalan en tiempo de prueba, por ejemplo, mediante muestreo repetido, donde el costo de inferencia crece con el tamaño del modelo y el número de muestras. Esto crea una compensación que las leyes de escalado de preentrenamiento, como Chinchilla, no abordan. Presentamos las leyes de escalado Entrenar-para-Probar (T^2) que optimizan conjuntamente el tamaño del modelo, los tokens de entrenamiento y el número de muestras de inferencia bajo presupuestos fijos de extremo a extremo. T^2 moderniza las leyes de escalado de preentrenamiento con el modelado pass@k utilizado para el escalado en tiempo de prueba, y luego optimiza conjuntamente las decisiones de preentrenamiento y de tiempo de prueba. Las proyecciones de T^2 son robustas sobre distintos enfoques de modelado: miden el efecto de escalado conjunto en la pérdida de la tarea y el impacto del modelado en la precisión de la tarea. En ocho tareas posteriores, encontramos que, al considerar el costo de inferencia, las decisiones óptimas de preentrenamiento cambian radicalmente hacia el régimen de sobrentrenamiento, muy fuera del rango de los conjuntos estándar de escalado de preentrenamiento. Validamos nuestros resultados preentrenando modelos fuertemente sobrentrenados en la región óptima que pronostica el escalado T^2, confirmando su rendimiento sustancialmente superior en comparación con el preentrenamiento basado únicamente en escalado. Finalmente, dado que los LLM de frontera son post-entrenados, demostramos que nuestros hallazgos persisten en la etapa de post-entrenamiento, haciendo que el escalado T^2 sea significativo en los despliegues modernos.
English
Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.