Rompiendo los límites de entropía: Acelerando el entrenamiento de RL mediante MTP con muestreo por rechazo

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un componente clave de los modelos de lenguaje grandes modernos, pero la etapa de rollout sigue siendo el principal cuello de botella en los pipelines de entrenamiento con RL. Aunque la Predicción de Múltiples Tokens (MTP) ofrece una solución natural para acelerar los rollouts mediante decodificación especulativa, muchos estudios han observado que las tasas de aceptación de MTP se degradan significativamente durante el entrenamiento con RL, lo que conduce a una aceleración limitada. Para abordar este cuello de botella, presentamos Bebop, un estudio sistemático de MTP en el post-entrenamiento de LLM, y ofrecemos recetas prácticas para integrar MTP en pipelines de RL a gran escala. Primero, revelamos que la tasa de aceptación de MTP está fundamentalmente acotada por la fluctuación de la entropía del modelo, la cual muestra una clara relación lineal negativa con el incremento de la entropía en la etapa de RL. Segundo, mostramos que el muestreo por rechazo probabilístico alivia en gran medida la perturbación introducida por la entropía en RL en comparación con el muestreo codicioso de borradores. Además, identificamos que los objetivos de entrenamiento convencionales de MTP (entropía cruzada o KL) son subóptimos en estos entornos, por lo que proponemos una novedosa pérdida de variación total (TV) extremo a extremo que optimiza directamente la tasa de aceptación del muestreo por rechazo multi-paso, logrando mejoras de aproximadamente un 10% en la tasa de aceptación, alcanzando tasas de aceptación de hasta el 95% y ganancias adicionales de hasta un 25% en el rendimiento de inferencia en tareas de razonamiento matemático, generación de código y tareas agentivas. Tercero, evaluamos varias estrategias de entrenamiento online de MTP durante el RL y mostramos que el entrenamiento de MTP previo al RL con la pérdida TV extremo a extremo y muestreo por rechazo logra una tasa de aceptación y una aceleración consistentes durante todo el proceso de RL, eliminando la necesidad de costosas actualizaciones online de MTP. Proporcionamos extensos experimentos y análisis que validan nuestros hallazgos. Los resultados experimentales muestran que nuestro método logra una aceleración extremo a extremo de hasta 1.8x en el entrenamiento asíncrono con RL de los modelos Qwen3.5, Qwen3.6 y Qwen3.7.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.