Aceleración de los Despliegues Posteriores al Entrenamiento de RL mediante Decodificación Especulativa Integrada en el Sistema

Resumen

El post-entrenamiento por RL de modelos lingüísticos de vanguardia se ve cada vez más limitado por la generación autoregresiva de rollouts, lo que convierte la aceleración de estos en un desafío central de sistemas. Muchos métodos de eficiencia existentes mejoran el rendimiento cambiando el régimen de rollout u optimización, por ejemplo, mediante ejecución fuera de política, repetición de experiencias o generación de menor precisión. Estudiamos la decodificación especulativa como una primitiva de aceleración sin pérdidas para los rollouts de RL que preserva la distribución de salida del modelo objetivo. Implementamos la decodificación especulativa en NeMo-RL con un backend vLLM, compatible con pipelines síncronos y asíncronos y que permite la especulación durante los rollouts de RL. Este beneficio es realizable a través de diversos mecanismos de especulación, como cabezas MTP preentrenadas, pequeños modelos de borrador externos o incluso técnicas como Eagle3, que tradicionalmente se aplican después de la fase de RL. Esto ofrece una vía de despliegue para la decodificación especulativa de última generación dentro del entrenamiento por RL. En una carga de trabajo de post-entrenamiento para razonamiento a escala de 8B bajo RL síncrono, la decodificación especulativa mejora el rendimiento de los rollouts en 1.8x. Utilizando un simulador de rendimiento de alta fidelidad, proyectamos que la combinación de decodificación especulativa con RL asíncrono produce una aceleración de hasta 2.5x en el entrenamiento de extremo a extremo a escala de 235B.

English

RL post-training of frontier language models is increasingly bottlenecked by autoregressive rollout generation, making rollout acceleration a central systems challenge. Many existing efficiency methods improve throughput by changing the rollout or optimization regime, for example, through off-policy execution, replay, or lower-precision generation. We study speculative decoding as a lossless acceleration primitive for RL rollouts that preserves the target model's output distribution. We implement speculative decoding in NeMo-RL with a vLLM backend, supporting both synchronous and asynchronous pipelines and enabling speculation during RL rollouts. This benefit is realizable across speculation mechanisms, such as pretrained MTP heads, small external draft models or even techniques such as Eagle3, which are traditionally applied after RL phase. This yields a deployment path for state-of-the-art speculative decoding inside RL training. In a reasoning post-training workload at 8B scale under synchronous RL, speculative decoding improves rollout throughput by 1.8x. Using a high-fidelity performance simulator, we project that combining speculative decoding with asynchronous RL yields up to 2.5x end-to-end training speedup at 235B scale.

Aceleración de los Despliegues Posteriores al Entrenamiento de RL mediante Decodificación Especulativa Integrada en el Sistema

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Resumen

Support