Масштабирование во время тестирования делает переобучение вычислительно-оптимальным

Аннотация

Современные большие языковые модели масштабируются на этапе тестирования, например, с помощью повторной выборки, когда стоимость вывода растет с размером модели и количеством образцов. Это создает компромисс, который не учитывается законами масштабирования предварительного обучения, такими как Chinchilla. Мы представляем законы масштабирования "от обучения к тестированию" (Train-to-Test, T²), которые совместно оптимизируют размер модели, объем обучающих данных и количество шагов вывода при фиксированных сквозных бюджетах. T² модернизирует законы масштабирования предварительного обучения за счет моделирования pass@k, используемого для масштабирования на этапе тестирования, а затем совместно оптимизирует решения по предварительному обучению и тестированию. Прогнозы T² устойчивы для различных подходов к моделированию: измеряется совместное влияние масштабирования на потерю задачи и влияние моделирования на точность задачи. На восьми последующих задачах мы обнаруживаем, что при учете стоимости вывода оптимальные решения по предварительному обучению кардинально смещаются в режим переобучения, далеко за пределы диапазона стандартных наборов масштабирования предварительного обучения. Мы проверяем наши результаты, проводя предварительное обучение сильно переобученных моделей в оптимальной области, которую прогнозирует масштабирование T², подтверждая их существенно более высокую производительность по сравнению с масштабированием только предварительного обучения. Наконец, учитывая, что передовые БЯМ проходят пост-обучение, мы показываем, что наши выводы сохраняются и на этапе пост-обучения, что делает масштабирование T² значимым в современных развертываниях.

English

Modern LLMs scale at test-time, e.g. via repeated sampling, where inference cost grows with model size and the number of samples. This creates a trade-off that pretraining scaling laws, such as Chinchilla, do not address. We present Train-to-Test (T^2) scaling laws that jointly optimize model size, training tokens, and number of inference samples under fixed end-to-end budgets. T^2 modernizes pretraining scaling laws with pass@k modeling used for test-time scaling, then jointly optimizes pretraining and test-time decisions. Forecasts from T^2 are robust over distinct modeling approaches: measuring joint scaling effect on the task loss and modeling impact on task accuracy. Across eight downstream tasks, we find that when accounting for inference cost, optimal pretraining decisions shift radically into the overtraining regime, well-outside of the range of standard pretraining scaling suites. We validate our results by pretraining heavily overtrained models in the optimal region that T^2 scaling forecasts, confirming their substantially stronger performance compared to pretraining scaling alone. Finally, as frontier LLMs are post-trained, we show that our findings survive the post-training stage, making T^2 scaling meaningful in modern deployments.

Масштабирование во время тестирования делает переобучение вычислительно-оптимальным

Test-Time Scaling Makes Overtraining Compute-Optimal

Аннотация

Support