ChatPaper.aiChatPaper

Präskriptives Skalieren enthüllt die Evolution von Sprachmodellfähigkeiten

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

February 17, 2026
papers.authors: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI

papers.abstract

Für den Einsatz von Fundamentmodellen benötigen Praktiker zunehmend präskriptive Skalierungsgesetze: Welche Downstream-Genauigkeit ist bei einem vorgegebenen Pre-Training-Rechenbudget mit aktuellen Post-Training-Verfahren erreichbar und wie stabil ist diese Abbildung im Laufe der Feldesentwicklung? Mithilfe groß angelegter Beobachtungsauswertungen mit 5.000 bestehenden und 2.000 neu erhobenen Datenpunkten zur Modellleistung schätzen wir Fähigkeitsgrenzen – hohe bedingte Quantile von Benchmark-Ergebnissen als Funktion der logarithmierten Pre-Training-FLOPs – mittels geglätteter Quantilsregression mit einer monotonen, sättigenden Sigmoid-Parametrisierung. Wir validieren die zeitliche Zuverlässigkeit, indem wir Modelle früherer Generationen anpassen und auf später veröffentlichte Modelle anwenden. Über verschiedene Aufgaben hinweg sind die geschätzten Grenzen größtenteils stabil, mit Ausnahme des mathematischen Denkens, das eine kontinuierlich fortschreitende Grenze aufweist. Anschließend erweitern wir unseren Ansatz, um aufgabenspezifische Sättigung zu analysieren und kontaminationsbedingte Verschiebungen bei mathematischen Denkaufgaben zu untersuchen. Schließlich stellen wir einen effizienten Algorithmus vor, der nahezu vollständige Datenfronten unter Nutzung von etwa 20 % des Evaluierungsbudgets rekonstruiert. Insgesamt veröffentlicht unsere Arbeit Proteus 2k, den neuesten Modellleistungs-Evaluierungsdatensatz, und führt eine praktische Methodik ein, um Rechenbudgets in zuverlässige Leistungserwartungen zu übersetzen und Verschiebungen von Fähigkeitsgrenzen über die Zeit hinweg zu überwachen.
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
PDF21February 19, 2026