Treinamento Conjunto de Previsão de Múltiplos Tokens em Aprendizado por Reforço via Calibração Ótima de Coeficientes

Resumo

Aprendizado por Reforço a partir de Recompensas Verificáveis (RLVR) surgiu como o paradigma padrão para melhorar a capacidade de raciocínio de modelos de linguagem de grande porte, enquanto a Predição de Múltiplos Tokens (MTP) tem sido um módulo amplamente adotado no pré-treinamento. Combiná-los é uma abordagem natural, no entanto, as práticas atuais de RL desacoplam os gradientes do MTP porque o treinamento conjunto degrada o desempenho. Revisitamos essa falha sob uma perspectiva de otimização. Mostramos que o efeito por passo do MTP no objetivo de RL pode ser decomposto em dois termos: uma correlação de primeira ordem e uma penalidade de perturbação de segunda ordem. Essa decomposição unifica três regimes de treinamento do MTP: Desacoplamento (Detach), perda de entropia cruzada e perda de política, e explica por que cada um obtém sucesso ou falha. Uma análise mais aprofundada da perda de política revela que, embora esteja alinhada com a intuição, o desempenho ainda degrada: o termo de correlação decai enquanto a penalidade quadrática persiste. Guiados pela análise, propomos a Calibração de Coeficiente Ótimo (OCC), um esquema adaptativo que rastreia o coeficiente ótimo online por meio de um proxy de log-probabilidade a um custo desprezível. Em seis benchmarks de raciocínio matemático de nível competitivo, o OCC consistentemente iguala ou supera a linha de base com desacoplamento, fornecendo um desempenho de treinamento conjunto MTP-RL melhorado.

English

Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as the standard paradigm for improving reasoning capability of large language models, while Multi-Token Prediction (MTP) has been a widely adopted module in pretraining. Combining them is a natural approach, yet current RL practices detach MTP gradients because joint training degrades the performance. We revisit this failure from an optimization perspective. We show that the per-step effect of MTP on the RL objective can be decomposed into two terms: a first-order correlation and a second-order perturbation penalty. This decomposition unifies three MTP training regimes: Detach, Cross-Entropy loss, and Policy loss, and explains why each succeeds or fails. Further analysis of policy loss reveals that, although it aligns with intuition, performance still degrades: the correlation term decays while the quadratic penalty persists. Guided by the analysis, we propose Optimal Coefficient Calibration (OCC), an adaptive scheme that tracks the optimal coefficient online via a log-probability proxy at negligible cost. Across six competition-level mathematical reasoning benchmarks, OCC consistently matches or exceeds the detach baseline, delivering improved joint MTP-RL training performance.