Le dimensionnement prescriptif révèle l'évolution des capacités des modèles linguistiques
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities
February 17, 2026
papers.authors: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI
papers.abstract
Pour le déploiement de modèles de fondation, les praticiens ont un besoin croissant de lois d'échelle prescriptives : étant donné un budget de calcul pour le pré-entraînement, quelle précision en aval est atteignable avec les pratiques contemporaines de post-entraînement, et quelle est la stabilité de cette correspondance à mesure que le domaine évolue ? En utilisant des évaluations observationnelles à grande échelle avec 5 000 données observationnelles et 2 000 nouvelles données échantillonnées sur les performances des modèles, nous estimons les frontières de capacité, c'est-à-dire les quantiles conditionnels élevés des scores de référence en fonction du logarithme des FLOPs de pré-entraînement, via une régression quantile lissée avec une paramétrisation sigmoïde monotone et saturante. Nous validons la fiabilité temporelle en ajustant le modèle sur des générations antérieures de modèles et en évaluant sur des versions ultérieures. Sur diverses tâches, les frontières estimées sont majoritairement stables, à l'exception du raisonnement mathématique qui présente une frontière en progression constante dans le temps. Nous étendons ensuite notre approche pour analyser la saturation dépendante de la tâche et pour sonder les décalages liés à la contamination sur les tâches de raisonnement mathématique. Enfin, nous introduisons un algorithme efficace qui retrouve des frontières de données quasi complètes en utilisant environ 20 % du budget d'évaluation. Ensemble, notre travail publie le Proteus 2k, la dernière base de données d'évaluation des performances des modèles, et introduit une méthodologie pratique pour traduire les budgets de calcul en attentes de performance fiables et pour surveiller les décalages des frontières de capacité dans le temps.
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.