ChatPaper.aiChatPaper

規範的スケーリングが明らかにする言語モデル能力の進化

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

February 17, 2026
著者: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI

要旨

大規模基盤モデルのデプロイにおいて、実践者はますます規範的なスケーリング則を必要としている。すなわち、事前学習の計算予算が与えられた場合、現代的な学習後手法を用いて達成可能な下流タスクの精度はどれほどであり、その対応関係は技術の進展に伴ってどの程度安定しているのか、という問いである。本研究では、モデル性能に関する5,000件の観測データと新たにサンプリングした2,000件のデータを用いた大規模な観察的評価を通じて、能力限界(ベンチマークスコアの高い条件付き分位点)を、単調かつ飽和するシグモイド関数によるパラメータ化を用いた平滑化分位点回帰により、事前学習FLOPsの対数関数として推定する。時間的信頼性は、初期のモデル世代でフィッティングし、後続のリリースで評価することで検証する。様々なタスクにおいて、推定された能力限界は大部分で安定していたが、数学的推論タスクのみが時間とともに一貫して前進する限界を示した。さらに本手法を拡張し、タスク依存的な飽和現象の分析や、数学的推論タスクにおける汚染(contamination)関連のシフトの調査に応用する。最後に、評価予算の約20%を使用してほぼ完全なデータフロンティアを復元する効率的なアルゴリズムを提案する。本研究は、最新のモデル性能評価データセットであるProteus 2kを公開するとともに、計算予算を信頼性の高い性能期待値に変換し、能力限界の時間的変化を監視するための実用的な方法論を提供する。
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
PDF21February 19, 2026