Überwindung von Entropieschranken: Beschleunigung des RL-Trainings durch MTP mit Verwerfungsstichproben

Zusammenfassung

Bestärkendes Lernen (RL) ist zu einer Schlüsselkomponente in modernen großen Sprachmodellen geworden, doch die Rollout-Phase bleibt der entscheidende Engpass in RL-Trainingspipelines. Obwohl die Multi-Token-Vorhersage (MTP) eine natürliche Lösung zur Beschleunigung von Rollouts durch spekulatives Decodieren bietet, haben viele Studien beobachtet, dass die MTP-Akzeptanzraten während des RL-Trainings erheblich abnehmen, was zu einer begrenzten Beschleunigungsleistung führt. Um diesen Engpass zu adressieren, stellen wir Bebop vor, eine systematische Studie von MTP im Post-Training von LLMs, und bieten praktische Rezepte zur Integration von MTP in groß angelegte RL-Pipelines. Zunächst zeigen wir, dass die MTP-Akzeptanzrate grundlegend durch die Schwankung der Modellentropie begrenzt wird, die einen klaren negativen linearen Zusammenhang mit dem Anstieg der Entropie in der RL-Phase aufweist. Zweitens zeigen wir, dass probabilistisches Zurückweisungsstichproben die durch Entropie im RL verursachte Störung im Vergleich zu gierigem Draft-Sampling weitgehend mildert. Wir stellen weiterhin fest, dass die konventionellen MTP-Trainingsziele (Kreuzentropie oder KL) in solchen Umgebungen suboptimal sind, und schlagen daher einen neuartigen End-to-End-TV-Verlust vor, der direkt die Akzeptanzrate des mehrstufigen Zurückweisungsstichproben optimiert, was zu einer Verbesserung der Akzeptanzrate um etwa 10 % führt, mit Akzeptanzraten von bis zu 95 % und zusätzlichen Inferenzdurchsatzsteigerungen von bis zu 25 % bei mathematischen Argumentations-, Codegenerierungs- und agentischen Aufgaben. Drittens testen wir verschiedene Online-MTP-Trainingsstrategien während des RL und zeigen, dass das Pre-RL-MTP-Training mit e2e-TV-Verlust und Zurückweisungsstichproben eine konsistente Akzeptanzrate und Beschleunigung während des gesamten RL erreicht, wodurch die Notwendigkeit kostspieliger Online-MTP-Aktualisierungen entfällt. Wir liefern umfangreiche Experimente und Analysen, die unsere Ergebnisse validieren. Die experimentellen Ergebnisse zeigen, dass unsere Methode eine bis zu 1,8-fache End-to-End-Beschleunigung im asynchronen RL-Training der Modelle Qwen3.5, Qwen3.6 und Qwen3.7 erreicht.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.