ChatPaper.aiChatPaper

규범적 척도 분석을 통한 언어 모델 능력의 진화 규명

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

February 17, 2026
저자: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI

초록

기반 모델 배포를 위해 실무자들은 점점 더 규범적 스케일링 법칙을 필요로 합니다: 주어진 사전 학습 계산 예산 하에서, 현대적인 사후 학습 방법론을 적용했을 때 달성 가능한 다운스트림 정확도는 어느 정도이며, 해당 분야가 진화함에 따라 이 매핑의 안정성은 어떻게 되는가? 우리는 모델 성능에 대한 5,000개의 관측 데이터와 새로 샘플링한 2,000개의 데이터를 활용한 대규모 관측 평가를 통해 능력 한계(벤치마크 점수의 높은 조건부 분위수)를 로그 사전 학습 FLOPs의 함수로 추정합니다. 이는 단조 증가하고 포화되는 시그모이드 매개변수화를 적용한 평활 분위수 회귀를 통해 수행됩니다. 시간적 신뢰성은 초기 모델 세대에 적합시켜 학습하고 이후 출시된 모델에 대해 평가함으로써 검증합니다. 다양한 작업에서 추정된 한계는 대체로 안정적이나, 수학적 추론 과제의 경우 시간이 지남에 따라 한계가 지속적으로 진전되는 양상을 보입니다. 이후 우리의 접근법을 확장하여 작업 의존적 포화 현상을 분석하고 수학적 추론 과제에서 데이터 오염과 관련된 변화를 탐구합니다. 마지막으로, 평가 예산의 약 20%만을 사용하여 전체 데이터 프론티어에 근접한 결과를 복원하는 효율적인 알고리즘을 소개합니다. 종합적으로, 본 연구는 최신 모델 성능 평가 데이터셋인 Proteus 2k를 공개하고, 계산 예산을 신뢰할 수 있는 성능 기대치로 전환하는 실용적인 방법론과 시간에 따른 능력 한계 변화를 모니터링하는 방안을 제시합니다.
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
PDF21February 19, 2026