Aceleração de Rollouts Pós-Treinamento de RL via Decodificação Especulativa Integrada ao Sistema

Resumo

O pós-treinamento por RL (Reinforcement Learning) de modelos de linguagem de fronteira está cada vez mais limitado pela geração autoregressiva de rollouts, tornando a aceleração desses rollouts um desafio central de sistemas. Muitos métodos de eficiência existentes melhoram a taxa de transferência alterando o regime de rollout ou otimização, por exemplo, através de execução off-policy, replay ou geração de baixa precisão. Estudamos a decodificação especulativa como um primitivo de aceleração sem perdas para rollouts de RL que preserva a distribuição de saída do modelo alvo. Implementamos a decodificação especulativa no NeMo-RL com um backend vLLM, suportando pipelines síncronos e assíncronos e permitindo especulação durante os rollouts de RL. Este benefício é realizável através de vários mecanismos de especulação, como cabeças MTP pré-treinadas, pequenos modelos de rascunho externos ou mesmo técnicas como Eagle3, tradicionalmente aplicadas após a fase de RL. Isso fornece um caminho de implantação para a decodificação especulativa de última geração dentro do treinamento por RL. Em uma carga de trabalho de pós-treinamento de raciocínio em escala de 8B sob RL síncrono, a decodificação especulativa melhora a taxa de transferência de rollout em 1,8x. Usando um simulador de desempenho de alta fidelidade, projetamos que a combinação da decodificação especulativa com RL assíncrono produz um aumento de velocidade de treinamento de ponta a ponta de até 2,5x em escala de 235B.

English

RL post-training of frontier language models is increasingly bottlenecked by autoregressive rollout generation, making rollout acceleration a central systems challenge. Many existing efficiency methods improve throughput by changing the rollout or optimization regime, for example, through off-policy execution, replay, or lower-precision generation. We study speculative decoding as a lossless acceleration primitive for RL rollouts that preserves the target model's output distribution. We implement speculative decoding in NeMo-RL with a vLLM backend, supporting both synchronous and asynchronous pipelines and enabling speculation during RL rollouts. This benefit is realizable across speculation mechanisms, such as pretrained MTP heads, small external draft models or even techniques such as Eagle3, which are traditionally applied after RL phase. This yields a deployment path for state-of-the-art speculative decoding inside RL training. In a reasoning post-training workload at 8B scale under synchronous RL, speculative decoding improves rollout throughput by 1.8x. Using a high-fidelity performance simulator, we project that combining speculative decoding with asynchronous RL yields up to 2.5x end-to-end training speedup at 235B scale.

Aceleração de Rollouts Pós-Treinamento de RL via Decodificação Especulativa Integrada ao Sistema

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Resumo

Support