Prévision de la performance en aval des LLM à l'aide de métriques proxies

Résumé

Les progrès dans le développement des modèles de langage sont souvent guidés par des décisions comparatives : quelle architecture adopter, quel corpus de pré-entraînement utiliser, ou quelle recette d’entraînement appliquer. Prendre ces décisions de manière éclairée nécessite des prévisions de performance fiables, mais les deux signaux couramment utilisés sont fondamentalement limités. La perte d’entropie croisée est mal alignée avec les capacités en aval, et l’évaluation directe en aval est coûteuse, parcimonieuse et souvent peu informative aux premiers stades de l’entraînement. Nous proposons plutôt de construire des métriques proxy en agrégeant des statistiques au niveau des tokens, telles que l’entropie, la précision top-k et le rang des tokens experts, à partir de la distribution du token suivant d’un modèle candidat sur des solutions rédigées par des experts. Dans trois contextes différents, nos proxies surpassent systématiquement les références basées sur la perte et le calcul : 1) Pour la sélection de modèles entre familles, ils classent une population hétérogène de modèles de raisonnement avec un Rho de Spearman moyen de 0,81 (contre un Rho de 0,36 pour la perte d’entropie croisée) ; 2) Pour la sélection des données de pré-entraînement, ils classent de manière fiable 25 corpus candidats pour un modèle cible avec environ 10 000 fois moins de calcul que l’évaluation directe, repoussant la frontière de Pareto au-delà des méthodes existantes ; 3) et pour la prévision en cours d’entraînement, ils extrapolent la précision en aval sur un horizon de calcul de 18 fois avec environ la moitié de l’erreur des alternatives existantes. Ensemble, ces résultats suggèrent que les trajectoires expertes sont une source de signal largement utile pour évaluer les capacités des modèles, permettant des prévisions de performance fiables tout au long du cycle de développement des modèles.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.