Doorbreken van entropiegrenzen: versnelling van RL-training via MTP met afwijzingssampling

Samenvatting

Reinforcement learning (RL) is een essentieel onderdeel geworden van moderne grote taalmodellen, maar de uitrolfase blijft de grootste bottleneck in RL-trainingspijplijnen. Hoewel Meer-Token Voorspelling (MTP) een natuurlijke oplossing biedt om uitrol te versnellen via speculatieve decodering, laten veel studies zien dat MTP-acceptatiepercentages tijdens RL-training aanzienlijk dalen, wat leidt tot beperkte snelheidswinst. Om deze bottleneck aan te pakken presenteren wij Bebop, een systematische studie van MTP in de post-training van grote taalmodellen, en bieden praktische recepten om MTP te integreren in grootschalige RL-pijplijnen. Ten eerste tonen we aan dat het MTP-acceptatiepercentage fundamenteel wordt begrensd door de fluctuatie van modelentropie, die een duidelijke negatieve lineaire relatie vertoont met de stijging van entropie in de RL-fase. Ten tweede laten we zien dat probabilistische verwerpingssteekproef de verstoring door entropie in RL grotendeels vermindert in vergelijking met greedy ontwerpsteekproef. Verder identificeren we dat de conventionele MTP-trainingsdoelen (kruisentropie of KL) suboptimaal zijn in dergelijke settings, en daarom stellen we een nieuw end-to-end TV-verlies voor dat direct het acceptatiepercentage van meerstapsverwerpingssteekproef optimaliseert, wat leidt tot een verbetering van ~10% in acceptatiepercentage, met tot 95% acceptatiepercentages en tot 25% extra inferentiedoorvoerwinst voor wiskundig redeneren, codegeneratie en agentische taken. Ten derde testen we verschillende online MTP-trainingsstrategieën tijdens RL en tonen aan dat pre-RL MTP-training met end-to-end TV-verlies en verwerpingssteekproef een consistent acceptatiepercentage en snelheidswinst gedurende de gehele RL handhaaft, waardoor de noodzaak voor kostbare online MTP-updates verdwijnt. We leveren uitgebreide experimenten en analyses die onze bevindingen valideren. Experimentele resultaten tonen aan dat onze methode tot 1,8x end-to-end versnelling behaalt in asynchrone RL-training van Qwen3.5-, Qwen3.6- en Qwen3.7-modellen.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.