O Escalonamento no Momento do Teste Torna o Sobretreinamento Computacionalmente Ótimo

Resumo

Os LLMs modernos escalam no momento do teste, por exemplo, através de amostragem repetida, onde o custo de inferência cresce com o tamanho do modelo e o número de amostras. Isto cria um compromisso que as leis de escalonamento de pré-treinamento, como a Chinchilla, não abordam. Apresentamos as leis de escalonamento Train-to-Test (T²) que otimizam conjuntamente o tamanho do modelo, os *tokens* de treino e o número de amostras de inferência sob orçamentos fixos de ponta a ponta. O T² moderniza as leis de escalonamento de pré-treinamento com a modelação *pass@k* usada para o escalonamento no momento do teste, otimizando depois conjuntamente as decisões de pré-treinamento e de teste. As previsões do T² são robustas em distintas abordagens de modelação: medindo o efeito de escalonamento conjunto na perda da tarefa e o impacto da modelação na precisão da tarefa. Em oito tarefas *downstream*, descobrimos que, ao contabilizar o custo de inferência, as decisões ótimas de pré-treinamento mudam radicalmente para o regime de sobretreino, bem fora do alcance dos conjuntos padrão de escalonamento de pré-treinamento. Validamos os nossos resultados pré-treinando modelos fortemente sobretreinados na região ótima que o escalonamento T² prevê, confirmando o seu desempenho substancialmente superior em comparação com o pré-treinamento isolado. Finalmente, como os LLMs de fronteira são pós-treinados, mostramos que as nossas descobertas sobrevivem à fase de pós-treinamento, tornando o escalonamento T² significativo nas implementações modernas.

English

Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.

O Escalonamento no Momento do Teste Torna o Sobretreinamento Computacionalmente Ótimo

Test-Time Scaling Makes Overtraining Compute-Optimal

Resumo

Support