EfficientRollout : décodage auto-spéculatif conscient du système pour les rollouts RL

Résumé

L'apprentissage par renforcement (RL) est devenu un paradigme post-entraînement représentatif pour les grands modèles de langage (LLMs), conférant de solides capacités de raisonnement et agentiques. Cependant, la génération de déploiement (rollout) reste un goulot d'étranglement majeur en termes de latence, car l'échantillonnage autorégressif décode les réponses de manière séquentielle et un petit nombre de générations à longue traîne déterminent souvent le temps d'achèvement. Le décodage spéculatif (SD) offre un moyen naturel de résoudre ce goulot d'étranglement, étant une technique bien établie pour servir des LLMs fixes qui réduit la latence en rédigeant rapidement des tokens et en les acceptant via une vérification parallèle tout en préservant la distribution du modèle cible. Cependant, ses accélérations pratiques ne se transfèrent pas directement aux déploiements RL : (i) la politique cible évolutive rend tout modèle de brouillon fixe de plus en plus inadapté à la distribution de sortie de la politique ; et (ii) les tailles de lots actives diminuent tout au long du décodage de déploiement, faisant passer le décodage de régimes limités par le calcul à des régimes limités par la mémoire, où la vérification parallèle peut exploiter une puissance de calcul sous-utilisée. Par conséquent, accélérer les déploiements RL nécessite à la fois un modèle de brouillon qui reste efficace sous de longues générations à haute température issues d'une politique évolutive, et une utilisation du SD tenant compte du système pour éviter les régimes limités par le calcul. Nous présentons EfficientRollout, un cadre d'auto-décodage spéculatif (self-SD) conscient du système, conçu pour combler cette lacune dans les déploiements RL. EfficientRollout induit un modèle de brouillon quantifié à partir du modèle cible (i.e., auto-décodage spéculatif), le maintenant couplé à la politique évolutive sans pré-entraînement séparé du modèle de brouillon ni adaptation en ligne. Il coordonne en outre une politique d'activation du SD consciente du système avec une adaptation de la longueur des brouillons tenant compte du taux d'acceptation, permettant la spéculation uniquement dans les régimes bénéfiques tout en adaptant le budget de rédaction à la qualité évolutive du modèle de brouillon. EfficientRollout réduit la latence de déploiement et de bout en bout jusqu'à 19,6 % et 12,7 %, respectivement, par rapport à une référence de déploiement AR accélérée, tout en préservant la qualité finale du modèle.

English

Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.