Gemeinsames Training von Multi-Token-Vorhersage im Reinforcement Learning durch optimale Koeffizientenkalibrierung

Zusammenfassung

Verstärkendes Lernen aus verifizierbaren Belohnungen (RLVR) hat sich als Standardparadigma zur Verbesserung der Denkfähigkeit großer Sprachmodelle etabliert, während die Multi-Token-Vorhersage (MTP) ein weit verbreitetes Modul im Vortraining darstellt. Beide zu kombinieren ist ein naheliegender Ansatz, jedoch trennen aktuelle RL-Praktiken die MTP-Gradienten ab, da gemeinsames Training die Leistung verschlechtert. Wir betrachten dieses Scheitern aus einer Optimierungsperspektive erneut. Wir zeigen, dass der schrittweise Effekt von MTP auf das RL-Ziel in zwei Terme zerlegt werden kann: eine Korrelation erster Ordnung und eine Störungsstrafe zweiter Ordnung. Diese Zerlegung vereinheitlicht drei MTP-Trainingsregime: Abkoppeln, Kreuzentropieverlust und Policy-Verlust, und erklärt, warum jedes erfolgreich ist oder scheitert. Weitere Analysen des Policy-Verlusts zeigen, dass sich die Leistung trotz intuitiver Übereinstimmung dennoch verschlechtert: Der Korrelationsterm zerfällt, während die quadratische Strafe bestehen bleibt. Geleitet von der Analyse schlagen wir die Optimale Koeffizientenkalibrierung (OCC) vor, ein adaptives Schema, das den optimalen Koeffizienten online über einen Log-Wahrscheinlichkeits-Proxy zu vernachlässigbaren Kosten verfolgt. Über sechs mathematische Denkaufgaben auf Wettbewerbsniveau hinweg erreicht oder übertrifft OCC durchgängig die Abkoppelungs-Baseline und liefert eine verbesserte gemeinsame MTP-RL-Trainingsleistung.

English

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as the standard paradigm for improving reasoning capability of large language models, while Multi-Token Prediction (MTP) has been a widely adopted module in pretraining. Combining them is a natural approach, yet current RL practices detach MTP gradients because joint training degrades the performance. We revisit this failure from an optimization perspective. We show that the per-step effect of MTP on the RL objective can be decomposed into two terms: a first-order correlation and a second-order perturbation penalty. This decomposition unifies three MTP training regimes: Detach, Cross-Entropy loss, and Policy loss, and explains why each succeeds or fails. Further analysis of policy loss reveals that, although it aligns with intuition, performance still degrades: the correlation term decays while the quadratic penalty persists. Guided by the analysis, we propose Optimal Coefficient Calibration (OCC), an adaptive scheme that tracks the optimal coefficient online via a log-probability proxy at negligible cost. Across six competition-level mathematical reasoning benchmarks, OCC consistently matches or exceeds the detach baseline, delivering improved joint MTP-RL training performance.