Совместное обучение предсказанию нескольких токенов в обучении с подкреплением посредством оптимальной калибровки коэффициентов

Аннотация

Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало стандартной парадигмой для улучшения способности к рассуждению больших языковых моделей, в то время как многотокенное предсказание (MTP) является широко используемым модулем в предварительном обучении. Их объединение — естественный подход, однако существующие практики RL отделяют градиенты MTP, поскольку совместное обучение снижает производительность. Мы пересматриваем эту неудачу с точки зрения оптимизации. Мы показываем, что пошаговый эффект MTP на целевую функцию RL может быть разложен на два слагаемых: корреляцию первого порядка и штраф за возмущение второго порядка. Это разложение объединяет три режима обучения MTP: Detach, кросс-энтропийную потерю и потерю политики, и объясняет, почему каждый из них успешен или неудачен. Дальнейший анализ потери политики показывает, что, хотя она соответствует интуиции, производительность все равно снижается: член корреляции затухает, в то время как квадратичный штраф сохраняется. Руководствуясь анализом, мы предлагаем оптимальную калибровку коэффициентов (OCC) — адаптивную схему, которая отслеживает оптимальный коэффициент в онлайн-режиме через прокси логарифмической вероятности с незначительными затратами. На шести бенчмарках математических рассуждений уровня соревнований OCC последовательно соответствует или превосходит базовый уровень Detach, обеспечивая улучшенную производительность совместного обучения MTP-RL.

English

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as the standard paradigm for improving reasoning capability of large language models, while Multi-Token Prediction (MTP) has been a widely adopted module in pretraining. Combining them is a natural approach, yet current RL practices detach MTP gradients because joint training degrades the performance. We revisit this failure from an optimization perspective. We show that the per-step effect of MTP on the RL objective can be decomposed into two terms: a first-order correlation and a second-order perturbation penalty. This decomposition unifies three MTP training regimes: Detach, Cross-Entropy loss, and Policy loss, and explains why each succeeds or fails. Further analysis of policy loss reveals that, although it aligns with intuition, performance still degrades: the correlation term decays while the quadratic penalty persists. Guided by the analysis, we propose Optimal Coefficient Calibration (OCC), an adaptive scheme that tracks the optimal coefficient online via a log-probability proxy at negligible cost. Across six competition-level mathematical reasoning benchmarks, OCC consistently matches or exceeds the detach baseline, delivering improved joint MTP-RL training performance.