Accélération des déploiements post-entraînement en RL par décodage spéculatif intégré au système

Résumé

L'optimisation par apprentissage par renforcement (RL) des modèles de langage de pointe est de plus en plus limitée par la génération autoregressive des épisodes (rollouts), faisant de l'accélération de ces épisodes un défi système central. De nombreuses méthodes d'efficacité existantes améliorent le débit en modifiant le régime des épisodes ou de l'optimisation, par exemple via une exécution hors politique, la réutilisation d'expériences (replay) ou une génération en précision réduite. Nous étudions le décodage spéculatif comme une primitive d'accélération sans perte pour les épisodes de RL, qui préserve la distribution de sortie du modèle cible. Nous implémentons le décodage spéculatif dans NeMo-RL avec un backend vLLM, prenant en charge à la fois les pipelines synchrones et asynchrones et permettant la spéculation pendant les épisodes de RL. Cet avantage est réalisable avec divers mécanismes de spéculation, tels que des têtes de prédiction de tokens masqués (MTP) pré-entraînées, de petits modèles externes d'ébauche (draft models), ou même des techniques comme Eagle3, traditionnellement appliquées après la phase de RL. Cela ouvre une voie de déploiement pour le décodage spéculatif de pointe au sein de l'entraînement par RL. Sur une tâche de post-entraînement pour le raisonnement à l'échelle de 8 milliards de paramètres en RL synchrone, le décodage spéculatif améliore le débit des épisodes d'un facteur de 1,8x. En utilisant un simulateur de performance haute fidélité, nous prévoyons que la combinaison du décodage spéculatif avec du RL asynchrone permet d'atteindre jusqu'à 2,5x d'accélération de l'entraînement de bout en bout à l'échelle de 235 milliards de paramètres.

English

RL post-training of frontier language models is increasingly bottlenecked by autoregressive rollout generation, making rollout acceleration a central systems challenge. Many existing efficiency methods improve throughput by changing the rollout or optimization regime, for example, through off-policy execution, replay, or lower-precision generation. We study speculative decoding as a lossless acceleration primitive for RL rollouts that preserves the target model's output distribution. We implement speculative decoding in NeMo-RL with a vLLM backend, supporting both synchronous and asynchronous pipelines and enabling speculation during RL rollouts. This benefit is realizable across speculation mechanisms, such as pretrained MTP heads, small external draft models or even techniques such as Eagle3, which are traditionally applied after RL phase. This yields a deployment path for state-of-the-art speculative decoding inside RL training. In a reasoning post-training workload at 8B scale under synchronous RL, speculative decoding improves rollout throughput by 1.8x. Using a high-fidelity performance simulator, we project that combining speculative decoding with asynchronous RL yields up to 2.5x end-to-end training speedup at 235B scale.

Accélération des déploiements post-entraînement en RL par décodage spéculatif intégré au système

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Résumé

Support