EfficientRollout: Decodificação Auto-Especulativa Ciente do Sistema para Rollouts de RL
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts
June 17, 2026
Autores: Minseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang
cs.AI
Resumo
Aprendizado por Reforço (AR) tornou-se um paradigma representativo de pós-treinamento para LLMs, permitindo capacidades robustas de raciocínio e atuação autônoma. No entanto, a geração de rollouts continua sendo um gargalo dominante de latência, pois a amostragem autorregressiva decodifica respostas sequencialmente e um pequeno número de gerações de cauda longa frequentemente determina o tempo de conclusão. A decodificação especulativa (SD) oferece uma maneira natural de lidar com esse gargalo, sendo uma técnica bem estabelecida para servir LLMs fixos, que reduz a latência ao rascunhar tokens rapidamente e aceitá-los por meio de verificação paralela, preservando a distribuição do modelo alvo. No entanto, seus ganhos práticos de velocidade não se transferem diretamente para rollouts de AR: (i) a política alvo em evolução torna qualquer rascunhador fixo cada vez mais incompatível com a distribuição de saída da política; e (ii) os tamanhos de lote ativos diminuem ao longo da decodificação de rollouts, deslocando a decodificação de regimes limitados por computação para regimes limitados por memória, onde a verificação paralela pode explorar a computação subutilizada. Portanto, acelerar rollouts de AR requer tanto um rascunhador que permaneça eficaz sob gerações longas e de alta temperatura de uma política em evolução quanto o uso consciente do sistema de SD que evite regimes limitados por computação. Apresentamos EfficientRollout, uma estrutura de autodecodificação especulativa (self-SD) ciente do sistema, projetada para lidar com essa lacuna em rollouts de AR. O EfficientRollout induz um rascunhador quantizado a partir do modelo alvo (ou seja, autodecodificação especulativa), mantendo-o acoplado à política em evolução sem pré-treinamento separado do rascunhador ou adaptação online. Ele ainda coordena uma política de alternância (toggle) de SD ciente do sistema com adaptação do comprimento do rascunho ciente da aceitação, permitindo especulação apenas em regimes benéficos enquanto ajusta o orçamento de rascunho à qualidade evolutiva do rascunhador. O EfficientRollout reduz a latência de rollout e ponta a ponta em até 19,6% e 12,7%, respectivamente, em relação a uma linha de base acelerada de AR com amostragem autorregressiva, preservando a qualidade final do modelo.
English
Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.