Briser les limites d'entropie : accélération de l'entraînement RL via MTP avec échantillonnage par rejet

Résumé

L'apprentissage par renforcement (RL) est devenu un composant clé des grands modèles de langue modernes, mais l'étape de déploiement (rollout) reste le principal goulot d'étranglement dans les chaînes d'entraînement RL. Bien que la prédiction multi-token (Multi-Token Prediction, MTP) offre une solution naturelle pour accélérer les rollouts via le décodage spéculatif, de nombreuses études ont observé que les taux d'acceptation de la MTP se dégradent significativement pendant l'entraînement RL, ce qui limite les gains de vitesse. Pour pallier ce goulot d'étranglement, nous présentons Bebop, une étude systématique de la MTP dans le post-entraînement des LLM, et proposons des recettes pratiques pour intégrer la MTP dans des pipelines RL à grande échelle. Premièrement, nous révélons que le taux d'acceptation de la MTP est fondamentalement borné par la fluctuation de l'entropie du modèle, laquelle présente une relation linéaire négative claire avec l'augmentation de l'entropie au cours de l'étape RL. Deuxièmement, nous montrons que l'échantillonnage par rejet probabiliste atténue largement la perturbation introduite par l'entropie dans le RL par rapport à l'échantillonnage glouton de brouillon (greedy draft sampling). Nous identifions également que les objectifs d'entraînement MTP conventionnels (entropie croisée ou KL) sont sous-optimaux dans ces contextes, et proposons donc une nouvelle perte de variation totale (TV loss) de bout en bout qui optimise directement le taux d'acceptation de l'échantillonnage par rejet multi-étapes, permettant une amélioration d'environ 10 % du taux d'acceptation, atteignant jusqu'à 95 % de taux d'acceptation et jusqu'à 25 % de gains supplémentaires de débit d'inférence dans des tâches de raisonnement mathématique, de génération de code et agentiques. Troisièmement, nous testons diverses stratégies d'entraînement MTP en ligne pendant le RL et montrons qu'un entraînement MTP pré-RL avec la perte TV de bout en bout et l'échantillonnage par rejet permet d'obtenir un taux d'acceptation et une accélération constants tout au long du RL, éliminant ainsi le besoin de mises à jour MTP en ligne coûteuses. Nous fournissons des expériences et analyses approfondies qui valident nos résultats. Les résultats expérimentaux montrent que notre méthode atteint une accélération de bout en bout allant jusqu'à 1,8x dans l'entraînement RL asynchrone des modèles Qwen3.5, Qwen3.6 et Qwen3.7.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.