Прогнозирование производительности LLM на последующих задачах с помощью прокси-метрик

Аннотация

Прогресс в разработке языковых моделей часто определяется сравнительными решениями: какую архитектуру выбрать, какой корпус предварительного обучения использовать или какой рецепт обучения применить. Для принятия этих решений требуются надежные прогнозы производительности, однако два широко используемых сигнала принципиально ограничены. Потери перекрестной энтропии плохо согласуются с возможностями ниже по потоку, а прямая оценка ниже по потоку дорога, разрежена и часто неинформативна на ранних этапах обучения. Вместо этого мы предлагаем строить прокси-метрики путем агрегирования статистик на уровне токенов, таких как энтропия, точность top-k и ранг экспертного токена, из распределения следующего токена модели-кандидата по решениям, написанным экспертами. В трех сценариях наши прокси последовательно превосходят базовые показатели на основе потерь и вычислений: 1) Для выбора модели среди разных семейств они ранжируют разнородную популяцию моделей рассуждений со средним коэффициентом ранговой корреляции Спирмена 0,81 (по сравнению с 0,36 для потерь перекрестной энтропии); 2) Для выбора данных предварительного обучения они надежно ранжируют 25 корпусов-кандидатов для целевой модели примерно в 10 000 раз с меньшими вычислительными затратами, чем прямая оценка, сдвигая границу Парето за пределы существующих методов; и 3) для прогнозирования во время обучения они экстраполируют точность ниже по потоку на горизонт в 18 раз по вычислительным затратам с примерно вдвое меньшей ошибкой по сравнению с существующими альтернативами. В совокупности эти результаты показывают, что экспертные траектории являются широко полезным источником сигнала для оценки возможностей модели, обеспечивая надежное прогнозирование производительности на протяжении всего жизненного цикла разработки модели.

English

Progress in language model development is often driven by comparative decisions: which architecture to adopt, which pretraining corpus to use, or which training recipe to apply. Making these decisions well requires reliable performance forecasts, yet the two commonly used signals are fundamentally limited. Cross-entropy loss is poorly aligned with downstream capabilities, and direct downstream evaluation is expensive, sparse, and often uninformative at early training stages. Instead, we propose to construct proxy metrics by aggregating token-level statistics, such as entropy, top-k accuracy, and expert token rank, from a candidate model's next token distribution over expert-written solutions. Across three settings, our proxies consistently outperform loss- and compute-based baselines: 1) For cross-family model selection, they rank a heterogeneous population of reasoning models with mean Spearman Rho = 0.81 (vs. Rho = 0.36 for cross-entropy loss); 2) For pretraining data selection, they reliably rank 25 candidate corpora for a target model at roughly 10{,}000times less compute than direct evaluation, pushing the Pareto frontier beyond existing methods; and 3) for training-time forecasting, they extrapolate downstream accuracy across an 18times compute horizon with roughly half the error of existing alternatives. Together, these results suggest that expert trajectories are a broadly useful source of signal for assessing model capabilities, enabling reliable performance forecasting throughout the model development life cycle.