테스트 타임 스케일링이 과적합을 계산 최적으로 만든다
Test-Time Scaling Makes Overtraining Compute-Optimal
April 1, 2026
저자: Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
cs.AI
초록
현대 LLM은 반복 샘플링과 같은 방식으로 테스트 시점에 규모를 조정하며, 이때 추론 비용은 모델 크기와 샘플 수에 따라 증가합니다. 이는 Chinchilla와 같은 사전 학습 규모 확장 법칙이 다루지 않는 절충 관계를 만들어냅니다. 본 논문에서는 고정된 종단 간 예산 하에서 모델 크기, 학습 토큰 수, 추론 샘플 수를 함께 최적화하는 Train-to-Test(T^2) 확장 법칙을 제시합니다. T^2는 테스트 시점 규모 조정에 사용되는 pass@k 모델링을 통해 사전 학습 확장 법칙을 현대화한 후, 사전 학습과 테스트 시점 의사 결정을 함께 최적화합니다. T^2의 예측은 서로 다른 모델링 접근법에 걸쳐 강건하며, 과제 손실에 대한 통합 확장 효과와 과제 정확도에 대한 모델링 영향을 측정합니다. 8개의 다운스트림 과제에서 추론 비용을 고려할 때, 최적의 사전 학습 의사 결정이 표준 사전 학습 확장 범위를 훨씬 벗어난 과학습 영역으로 급격히 이동함을 확인했습니다. 우리는 T^2 확장 법칙이 예측한 최적 영역에서 과학습된 모델을 사전 학습하여 이를 검증하였으며, 단독 사전 학습 확장 대비 상당히 향상된 성능을 확인했습니다. 마지막으로 최첨단 LLM이 사후 학습되는 현실을 반영하여, 우리의 발견이 사후 학습 단계에서도 유효함을 보여주며 T^2 확장이 현대적 배포 환경에서 의미 있음을 입증합니다.
English
Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.