Vorhersage der Downstream-Leistung von LLMs mittels Proxy-Metriken

Zusammenfassung

Fortschritte in der Entwicklung von Sprachmodellen werden oft durch vergleichende Entscheidungen vorangetrieben: welche Architektur man verwenden, welches Vortrainingskorpus man nutzen oder welches Trainingsrezept man anwenden soll. Diese Entscheidungen gut zu treffen, erfordert zuverlässige Leistungsprognosen, doch die beiden üblicherweise verwendeten Signale sind grundlegend eingeschränkt. Der Kreuzentropieverlust ist schlecht mit den nachgelagerten Fähigkeiten abgestimmt, und die direkte nachgelagerte Evaluierung ist teuer, spärlich und in frühen Trainingsstadien oft wenig aussagekräftig. Stattdessen schlagen wir vor, Proxy-Metriken zu konstruieren, indem wir token-basierte Statistiken wie Entropie, Top-k-Genauigkeit und Experten-Token-Rang aus der Nächster-Token-Verteilung eines Kandidatenmodells über von Experten geschriebene Lösungen aggregieren. In drei Szenarien übertreffen unsere Proxys konsistent die auf Verlust und Rechenaufwand basierenden Baselines: 1) Bei der modellübergreifenden Auswahl bewerten sie eine heterogene Population von Reasoning-Modellen mit einem mittleren Spearman-Rho von 0,81 (vs. Rho = 0,36 für den Kreuzentropieverlust); 2) Bei der Auswahl von Vortrainingsdaten bewerten sie zuverlässig 25 Kandidatenkorpora für ein Zielmodell mit etwa 10.000-mal weniger Rechenaufwand als direkte Evaluierung und verschieben die Pareto-Grenze über bestehende Methoden hinaus; und 3) Bei der Vorhersage während des Trainings extrapolieren sie die nachgelagerte Genauigkeit über einen 18-fachen Rechenhorizont mit etwa der Hälfte des Fehlers bestehender Alternativen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Experten-Trajektorien eine breit nutzbare Signalquelle zur Bewertung von Modellfähigkeiten darstellen und zuverlässige Leistungsprognosen während des gesamten Modellentwicklungszyklus ermöglichen.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.