EfficientRollout: Decodificación Auto-Especulativa Consciente del Sistema para Rollouts de RL

Resumen

El aprendizaje por refuerzo (RL) se ha convertido en un paradigma representativo de posentrenamiento para los modelos de lenguaje grandes (LLMs), permitiendo capacidades sólidas de razonamiento y agencia. Sin embargo, la generación de *rollouts* sigue siendo un cuello de botella de latencia dominante, ya que el muestreo autorregresivo decodifica respuestas de manera secuencial y un pequeño número de generaciones de cola larga a menudo determina el tiempo de finalización. La decodificación especulativa (SD) ofrece una forma natural de abordar este cuello de botella, al ser una técnica consolidada para servir LLMs fijos que reduce la latencia mediante la generación rápida de *tokens* y su aceptación a través de verificación paralela, preservando la distribución del modelo objetivo. Sin embargo, sus aceleraciones prácticas no se trasladan directamente a los *rollouts* de RL: (i) la política objetivo en evolución hace que cualquier generador de borradores fijo presente una falta de correspondencia creciente con la distribución de salida de la política; y (ii) los tamaños de lote activo se reducen durante la decodificación de *rollouts*, desplazando la decodificación de regímenes con limitación computacional a regímenes con limitación de memoria, donde la verificación paralela puede explotar la computación infrautilizada. Por lo tanto, acelerar los *rollouts* de RL requiere tanto un generador de borradores que siga siendo eficaz bajo generaciones largas y de alta temperatura a partir de una política en evolución, como un uso consciente del sistema de SD que evite los regímenes con limitación computacional. Presentamos EfficientRollout, un marco de autodecodificación especulativa (self-SD) consciente del sistema diseñado para abordar esta brecha en los *rollouts* de RL. EfficientRollout induce un generador de borradores cuantizado a partir del modelo objetivo (es decir, autodecodificación especulativa), manteniéndolo acoplado a la política en evolución sin necesidad de entrenamiento previo separado del generador de borradores ni de adaptación en línea. Además, coordina una política de conmutación de SD consciente del sistema con una adaptación de la longitud del borrador consciente de la aceptación, permitiendo la especulación solo en regímenes beneficiosos mientras ajusta el presupuesto de generación de borradores a la calidad cambiante del generador. EfficientRollout reduce la latencia de *rollout* y de extremo a extremo hasta en un 19,6 % y un 12,7 %, respectivamente, en comparación con una línea base de *rollout* autorregresivo acelerada, preservando al mismo tiempo la calidad final del modelo.

English

Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.