ChatPaper.aiChatPaper

Предписывающее масштабирование раскрывает эволюцию возможностей языковых моделей.

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

February 17, 2026
Авторы: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI

Аннотация

При развертывании фундаментальных моделей специалистам все чаще требуются предписывающие законы масштабирования: при заданном бюджете вычислительных ресурсов на предварительное обучение, какая точность достижима на последующих задачах с использованием современных методов постобработки и насколько стабильно это соответствие по мере развития области? Используя крупномасштабные наблюдательные оценки с 5 тыс. существующих и 2 тыс. вновь собранных данных о производительности моделей, мы оцениваем границы возможностей — высокие условные квантили результатов на бенчмарках как функцию логарифма FLOPs предварительного обучения — с помощью сглаженной квантильной регрессии с монотонной насыщающей сигмоидальной параметризацией. Мы проверяем временную надежность метода, обучая его на более ранних поколениях моделей и оценивая на более поздних версиях. На различных задачах оцененные границы в основном стабильны, за исключением математических рассуждений, где граница последовательно повышается со временем. Затем мы расширяем наш подход для анализа насыщения, зависящего от задачи, и исследования сдвигов, связанных с контаминацией данных, на задачах математических рассуждений. Наконец, мы представляем эффективный алгоритм, который восстанавливает почти полные границы данных, используя примерно 20% бюджета на оценку. В совокупности наша работа представляет Proteus 2k — новейший набор данных для оценки производительности моделей — и предлагает практическую методологию для пересчета вычислительных бюджетов в надежные ожидания по производительности и для отслеживания временных сдвигов границ возможностей.
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
PDF21February 19, 2026