Quebrando Limites de Entropia: Acelerando o Treinamento de RL via MTP com Amostragem por Rejeição

Resumo

O aprendizado por reforço (RL) tornou-se um componente essencial em modelos modernos de linguagem de grande escala, mas o estágio de rollout continua sendo o principal gargalo nos pipelines de treinamento de RL. Embora a Predição de Múltiplos Tokens (MTP) ofereça uma solução natural para acelerar rollouts por meio de decodificação especulativa, muitos estudos observaram que as taxas de aceitação da MTP se degradam significativamente durante o treinamento de RL, resultando em ganhos limitados de velocidade. Para abordar esse gargalo, apresentamos Bebop, um estudo sistemático da MTP no pós-treinamento de LLMs, e oferecemos receitas práticas para integrar a MTP em pipelines de RL em larga escala. Primeiro, revelamos que a taxa de aceitação da MTP é fundamentalmente limitada pela flutuação da entropia do modelo, que demonstra uma clara relação linear negativa com o aumento da entropia no estágio de RL. Segundo, mostramos que a amostragem por rejeição probabilística alivia consideravelmente a perturbação introduzida pela entropia no RL em comparação com a amostragem gulosa de rascunho. Identificamos ainda que os objetivos tradicionais de treinamento da MTP (entropia cruzada ou KL) são subótimos nesses cenários e, portanto, propomos uma nova perda TV ponta a ponta que otimiza diretamente a taxa de aceitação da amostragem por rejeição em múltiplas etapas, gerando melhorias de aproximadamente 10% na taxa de aceitação, alcançando até 95% de taxas de aceitação e ganhos adicionais de até 25% no throughput de inferência em tarefas de raciocínio matemático, geração de código e tarefas agentivas. Terceiro, testamos várias estratégias de treinamento online de MTP durante o RL e mostramos que o treinamento de MTP pré-RL com perda TV ponta a ponta e amostragem por rejeição mantém uma taxa de aceitação e aceleração consistentes ao longo de todo o RL, eliminando a necessidade de atualização online custosa da MTP. Fornecemos extensos experimentos e análises que validam nossos achados. Os resultados experimentais mostram que nosso método alcança até 1,8x de aceleração ponta a ponta no treinamento de RL assíncrono dos modelos Qwen3.5, Qwen3.6 e Qwen3.7.

English

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.