ChatPaper.aiChatPaper

La Escalación Prescriptiva Revela la Evolución de las Capacidades de los Modelos de Lenguaje

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

February 17, 2026
Autores: Hanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade
cs.AI

Resumen

Para el despliegue de modelos fundacionales, los profesionales necesitan cada vez más leyes de escalado prescriptivas: dado un presupuesto de cómputo para el preentrenamiento, ¿qué precisión *downstream* es alcanzable con las prácticas contemporáneas de postentrenamiento, y cuán estable es esa correlación a medida que el campo evoluciona? Utilizando evaluaciones observacionales a gran escala con 5k datos observacionales y 2k datos recién muestreados sobre el rendimiento de modelos, estimamos fronteras de capacidad, cuantiles condicionales altos de las puntuaciones en *benchmarks* en función del logaritmo de los FLOPS de preentrenamiento, mediante regresión cuantílica suavizada con una parametrización sigmoide monótona y saturable. Validamos la confiabilidad temporal ajustando el modelo a generaciones anteriores de modelos y evaluando en lanzamientos posteriores. En diversas tareas, las fronteras estimadas son mayormente estables, con la excepción del razonamiento matemático, que exhibe una frontera en avance constante en el tiempo. Luego, extendemos nuestro enfoque para analizar la saturación dependiente de la tarea y para investigar los desplazamientos relacionados con la contaminación en tareas de razonamiento matemático. Finalmente, introducimos un algoritmo eficiente que recupera las fronteras de datos casi completas utilizando aproximadamente el 20% del presupuesto de evaluación. En conjunto, nuestro trabajo publica Proteus 2k, el conjunto de datos de evaluación de rendimiento de modelos más reciente, e introduce una metodología práctica para traducir presupuestos de cómputo en expectativas de rendimiento confiables y para monitorear cuándo las fronteras de capacidad cambian a lo largo del tiempo.
English
For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.
PDF21February 19, 2026