A Escala Prescritiva Revela a Evolução das Capacidades dos Modelos de Linguagem

Resumo

Para a implantação de modelos de base, os profissionais necessitam cada vez mais de leis de dimensionamento prescritivas: dado um orçamento computacional para pré-treinamento, qual precisão *downstream* é atingível com as práticas contemporâneas de pós-treinamento, e quão estável é esse mapeamento à medida que a área evolui? Utilizando avaliações observacionais em larga escala com 5k dados observacionais e 2k dados recém-amostrados sobre o desempenho do modelo, estimamos fronteiras de capacidade, quantis condicionais elevados de pontuações de *benchmark* como uma função dos FLOPs de log de pré-treinamento, por meio de regressão quantílica suavizada com uma parametrização sigmoide monotônica e saturante. Validamos a confiabilidade temporal ajustando o modelo em gerações anteriores de modelos e avaliando em lançamentos posteriores. Em várias tarefas, as fronteiras estimadas são majoritariamente estáveis, com exceção do raciocínio matemático, que exibe uma fronteira em avanço consistente ao longo do tempo. Em seguida, estendemos nossa abordagem para analisar a saturação dependente da tarefa e investigar desvios relacionados à contaminação em tarefas de raciocínio matemático. Finalmente, introduzimos um algoritmo eficiente que recupera fronteiras de dados quase completas usando aproximadamente 20% do orçamento de avaliação. Em conjunto, nosso trabalho lança o Proteus 2k, o mais recente conjunto de dados de avaliação de desempenho de modelos, e introduz uma metodologia prática para traduzir orçamentos computacionais em expectativas de desempenho confiáveis e para monitorar quando as fronteiras de capacidade mudam ao longo do tempo.

English

For deploying foundation models, practitioners increasingly need prescriptive scaling laws: given a pre training compute budget, what downstream accuracy is attainable with contemporary post training practice, and how stable is that mapping as the field evolves? Using large scale observational evaluations with 5k observational and 2k newly sampled data on model performance, we estimate capability boundaries, high conditional quantiles of benchmark scores as a function of log pre training FLOPs, via smoothed quantile regression with a monotone, saturating sigmoid parameterization. We validate the temporal reliability by fitting on earlier model generations and evaluating on later releases. Across various tasks, the estimated boundaries are mostly stable, with the exception of math reasoning that exhibits a consistently advancing boundary over time. We then extend our approach to analyze task dependent saturation and to probe contamination related shifts on math reasoning tasks. Finally, we introduce an efficient algorithm that recovers near full data frontiers using roughly 20% of evaluation budget. Together, our work releases the Proteus 2k, the latest model performance evaluation dataset, and introduces a practical methodology for translating compute budgets into reliable performance expectations and for monitoring when capability boundaries shift across time.

A Escala Prescritiva Revela a Evolução das Capacidades dos Modelos de Linguagem

Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Resumo

Support