Pronóstico del rendimiento downstream de LLMs mediante métricas proxy

Resumen

El progreso en el desarrollo de modelos de lenguaje suele estar impulsado por decisiones comparativas: qué arquitectura adoptar, qué corpus de preentrenamiento utilizar o qué receta de entrenamiento aplicar. Tomar estas decisiones correctamente requiere pronósticos de rendimiento fiables, pero las dos señales comúnmente utilizadas tienen limitaciones fundamentales. La pérdida de entropía cruzada está escasamente alineada con las capacidades finales del modelo, y la evaluación directa de estas capacidades es costosa, escasa y a menudo poco informativa en las primeras etapas del entrenamiento. En su lugar, proponemos construir métricas proxy mediante la agregación de estadísticas a nivel de token, como la entropía, la precisión top-k y el rango de tokens expertos, a partir de la distribución del siguiente token de un modelo candidato sobre soluciones escritas por expertos. En tres contextos, nuestras métricas proxy superan consistentemente a las líneas base basadas en pérdida y cómputo: 1) Para la selección de modelos entre familias, clasifican una población heterogénea de modelos de razonamiento con un Rho de Spearman medio de 0.81 (frente a Rho = 0.36 para la pérdida de entropía cruzada); 2) Para la selección de datos de preentrenamiento, clasifican de manera fiable 25 corpus candidatos para un modelo objetivo utilizando aproximadamente 10,000 veces menos cómputo que la evaluación directa, desplazando la frontera de Pareto más allá de los métodos existentes; y 3) Para la predicción durante el entrenamiento, extrapolan la precisión final a lo largo de un horizonte de cómputo de 18 veces con aproximadamente la mitad del error de las alternativas existentes. En conjunto, estos resultados sugieren que las trayectorias de expertos son una fuente de señal ampliamente útil para evaluar las capacidades del modelo, permitiendo pronósticos de rendimiento fiables a lo largo del ciclo de vida del desarrollo del modelo.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.