Previsão do Desempenho Downstream de LLMs com Métricas Proxy

Resumo

O progresso no desenvolvimento de modelos de linguagem é frequentemente orientado por decisões comparativas: qual arquitetura adotar, qual corpus de pré-treinamento utilizar ou qual receita de treinamento aplicar. Tomar essas decisões de forma adequada exige previsões de desempenho confiáveis, porém os dois sinais comumente utilizados são fundamentalmente limitados. A perda de entropia cruzada está mal alinhada com as capacidades downstream, e a avaliação downstream direta é cara, esparsa e muitas vezes pouco informativa nos estágios iniciais de treinamento. Em vez disso, propomos construir métricas proxy agregando estatísticas em nível de token, como entropia, acurácia top-k e ranque de tokens especialistas, a partir da distribuição do próximo token de um modelo candidato sobre soluções escritas por especialistas. Em três cenários, nossas proxies superam consistentemente as linhas de base baseadas em perda e em custo computacional: 1) Para seleção de modelos entre famílias, elas ranqueiam uma população heterogênea de modelos de raciocínio com Rho de Spearman médio de 0,81 (contra Rho = 0,36 para perda de entropia cruzada); 2) Para seleção de dados de pré-treinamento, elas ranqueiam de forma confiável 25 corpora candidatos para um modelo alvo com aproximadamente 10.000 vezes menos custo computacional do que a avaliação direta, deslocando a fronteira de Pareto para além dos métodos existentes; e 3) Para previsão durante o treinamento, elas extrapolam a acurácia downstream ao longo de um horizonte de 18 vezes o custo computacional com aproximadamente metade do erro das alternativas existentes. Em conjunto, esses resultados sugerem que trajetórias de especialistas são uma fonte amplamente útil de sinal para avaliar capacidades de modelos, permitindo previsões de desempenho confiáveis ao longo de todo o ciclo de desenvolvimento do modelo.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.