EfficientRollout: Systembewusste selbst-spekulative Dekodierung für RL-Rollouts

Zusammenfassung

Verstärkungslernen (RL) hat sich zu einem repräsentativen Nachtrainingsparadigma für große Sprachmodelle (LLMs) entwickelt, das leistungsstarke Fähigkeiten im Bereich des logischen Denkens und der agentenhaften Interaktion ermöglicht. Allerdings bleibt die Rollout-Generierung ein dominanter Latenzengpass, da autoregressives Abtasten Antworten sequenziell dekodiert und eine kleine Anzahl langer Ausgaben oft die Gesamtbearbeitungszeit bestimmt. Spekulative Dekodierung (SD) bietet einen naheliegenden Ansatz zur Überwindung dieses Engpasses, da es sich um eine etablierte Technik für den Betrieb festgelegter LLMs handelt, die Latenzzeiten reduziert, indem Token schnell entworfen und durch parallele Verifikation akzeptiert werden, während die Verteilung des Zielmodells erhalten bleibt. Ihre praktischen Beschleunigungen lassen sich jedoch nicht direkt auf RL-Rollouts übertragen: (i) Die sich entwickelnde Zielpolitik führt dazu, dass ein festgelegter Entwerfer zunehmend von der Ausgabeverteilung der Politik abweicht; (ii) Die aktiven Batch-Größen schrumpfen während der Rollout-Dekodierung, wodurch die Dekodierung von rechenintensiven zu speicherbegrenzten Regimen wechselt, in denen parallele Verifikation ungenutzte Rechenleistung nutzen kann. Daher erfordert die Beschleunigung von RL-Rollouts sowohl einen Entwerfer, der unter langen, hochtemperaturigen Generierungen aus einer sich entwickelnden Politik effektiv bleibt, als auch eine systembewusste Nutzung von SD, die rechenintensive Regime vermeidet. Wir präsentieren EfficientRollout, ein systembewusstes Selbst-SD-Framework, das speziell auf diese Lücke bei RL-Rollouts abzielt. EfficientRollout generiert einen quantisierten Entwerfer aus dem Zielmodell (d. h. selbstspekulative Dekodierung), der an die sich entwickelnde Politik gekoppelt bleibt, ohne separates Vortraining des Entwerfers oder Online-Adaption. Es koordiniert ferner eine systembewusste SD-Umschaltstrategie mit akzeptanzbewusster Anpassung der Entwurfslänge, sodass Spekulation nur in vorteilhaften Regimen erfolgt, während das Entwurfsbudget an die sich entwickelnde Qualität des Entwerfers angepasst wird. EfficientRollout reduziert die Rollout- und End-to-End-Latenz um bis zu 19,6 % bzw. 12,7 % gegenüber einer beschleunigten AR-Rollout-Baseline, während die endgültige Modellqualität erhalten bleibt.

English

Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.