Voorspelling van downstream-prestaties van LLMs met proxymetrieken

Samenvatting

Vooruitgang in de ontwikkeling van taalmodellen wordt vaak gedreven door vergelijkende beslissingen: welke architectuur te kiezen, welk pretrainingcorpus te gebruiken, of welk trainingsrecept toe te passen. Om deze beslissingen goed te nemen, zijn betrouwbare prestatievoorspellingen nodig, maar de twee veelgebruikte signalen zijn fundamenteel beperkt. Cross-entropieverlies sluit slecht aan bij stroomafwaartse mogelijkheden, en directe stroomafwaartse evaluatie is duur, schaars en vaak niet informatief in vroege trainingsfasen. In plaats daarvan stellen we voor om proxy-metrieken te construeren door token-niveaustatistieken, zoals entropie, top-k-nauwkeurigheid en expert-tokenrang, te aggregeren uit de volgende-tokenverdeling van een kandidaatmodel over door experts geschreven oplossingen. In drie settings presteren onze proxy's consistent beter dan op verlies en rekenkracht gebaseerde basislijnen: 1) Voor cross-family modelselectie rangschikken ze een heterogene populatie van redeneermodellen met een gemiddelde Spearman-rho van 0,81 (tegenover rho = 0,36 voor cross-entropieverlies); 2) Voor pretraininggegevensselectie rangschikken ze betrouwbaar 25 kandidaatcorpora voor een doelmodel met ruwweg 10.000 keer minder rekenkracht dan directe evaluatie, waarmee de Pareto-grens verder wordt verschoven dan bestaande methoden; en 3) Voor trainingstijdvoorspelling extrapoleren ze stroomafwaartse nauwkeurigheid over een rekenhorizon van 18 keer met ongeveer de helft van de fout van bestaande alternatieven. Gezamenlijk suggereren deze resultaten dat expert-trajecten een breed bruikbare signaalbron vormen voor het beoordelen van modelcapaciteiten, waardoor betrouwbare prestatievoorspellingen mogelijk worden gedurende de gehele levenscyclus van modelontwikkeling.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.