Il Ridimensionamento al Momento del Test Rende il Sovrallenamento Computazionalmente Ottimale
Test-Time Scaling Makes Overtraining Compute-Optimal
April 1, 2026
Autori: Nicholas Roberts, Sungjun Cho, Zhiqi Gao, Tzu-Heng Huang, Albert Wu, Gabriel Orlanski, Avi Trost, Kelly Buchanan, Aws Albarghouthi, Frederic Sala
cs.AI
Abstract
I moderni LLM scalano al momento del test, ad esempio tramite campionamento ripetuto, dove il costo dell'inferenza cresce con la dimensione del modello e il numero di campioni. Ciò crea un compromesso che le leggi di scala del preaddestramento, come Chinchilla, non affrontano. Presentiamo le leggi di scala Train-to-Test (T²) che ottimizzano congiuntamente la dimensione del modello, i token di addestramento e il numero di campioni di inferenza sotto budget end-to-end fissi. T² modernizza le leggi di scala del preaddestramento con la modellazione pass@k utilizzata per la scalabilità al momento del test, per poi ottimizzare congiuntamente le decisioni di preaddestramento e di test. Le previsioni di T² sono robuste su approcci di modellazione distinti: misurano l'effetto di scaling congiunto sulla loss del task e modellano l'impatto sull'accuratezza del task. Attraverso otto task downstream, scopriamo che quando si tiene conto del costo dell'inferenza, le decisioni ottimali di preaddestramento si spostano radicalmente verso il regime di overtraining, ben al di fuori dell'intervallo delle suite di scaling di preaddestramento standard. Convalidiamo i nostri risultati preaddestrando modelli fortemente overtrained nella regione ottimale prevista dallo scaling T², confermando le loro prestazioni sostanzialmente superiori rispetto al solo scaling del preaddestramento. Infine, poiché i LLM all'avanguardia vengono post-addestrati, dimostriamo che le nostre scoperte sopravvivono alla fase di post-addestramento, rendendo lo scaling T² significativo negli impieghi moderni.
English
Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.