EfficientRollout: Systeembewuste Zelfspeculatieve Decodering voor RL-Rollouts

Samenvatting

Reinforcement learning (RL) is uitgegroeid tot een representatief post-trainingparadigma voor grote taalmodellen (LLM's), waarmee sterke redeneer- en agentische capaciteiten mogelijk worden gemaakt. De rolloutgeneratie blijft echter een dominant latentieknelpunt, omdat autoregressieve sampling responses sequentieel decodeert en een klein aantal langstaartgeneraties vaak de voltooiingstijd bepaalt. Speculatieve decodering (SD) biedt een natuurlijke manier om dit knelpunt aan te pakken, aangezien het een gevestigde techniek is voor het serveren van vaste LLM's die latentie vermindert door snel tokens te ontwerpen en deze te accepteren via parallelle verificatie, terwijl de verdeling van het doelmodel behouden blijft. De praktische snelheidswinsten zijn echter niet direct overdraagbaar naar RL-rollouts: (i) het evoluerende doelbeleid zorgt ervoor dat elke vaste draftmodel steeds meer mismatch vertoont met de outputverdeling van het beleid; en (ii) de actieve batchgroottes nemen af tijdens rollout-decodering, waardoor de decodering verschuift van rekengebonden naar geheugengebonden regimes, waarin parallelle verificatie onderbenutte rekenkracht kan benutten. Daarom vereist het versnellen van RL-rollouts zowel een draftmodel dat effectief blijft onder lange, hoge-temperatuur generaties van een evoluerend beleid, als een systeembewust gebruik van SD dat rekengebonden regimes vermijdt. We presenteren EfficientRollout, een systeembewust zelf-SD-raamwerk dat is ontworpen om deze kloof voor RL-rollouts te overbruggen. EfficientRollout genereert een gekwantiseerd draftmodel uit het doelmodel (d.w.z. zelf-speculatieve decodering), waardoor het gekoppeld blijft aan het evoluerende beleid zonder aparte pre-training of online aanpassing van het draftmodel. Verder coördineert het een systeembewust SD-schakelbeleid met acceptatiebewuste draftlengte-aanpassing, waardoor speculatie alleen in gunstige regimes plaatsvindt en het draftbudget wordt afgestemd op de evoluerende kwaliteit van het draftmodel. EfficientRollout vermindert de rollout- en end-to-end-latentie met respectievelijk tot 19,6% en 12,7% ten opzichte van een versnelde AR-rollout-baseline, terwijl de uiteindelijke modelkwaliteit behouden blijft.

English

Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.