EfficientRollout: системно-осведомленное самоспекулятивное декодирование для RL-роллаутов
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts
June 17, 2026
Авторы: Minseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang
cs.AI
Аннотация
Обучение с подкреплением (RL) стало типичной парадигмой пост-обучения для больших языковых моделей (LLM), обеспечивая сильные способности к рассуждению и агентному поведению. Однако генерация rollout'ов остается доминирующим узким местом по задержке, поскольку авторегрессивная выборка декодирует ответы последовательно, и небольшое количество генераций с длинным хвостом часто определяет время завершения. Спекулятивное декодирование (SD) предлагает естественный способ устранения этого узкого места, будучи хорошо зарекомендовавшей себя техникой для обслуживания фиксированных LLM, которая снижает задержку за счет быстрой генерации черновых токенов и их принятия посредством параллельной верификации с сохранением распределения целевой модели. Однако его практические ускорения напрямую не переносятся на rollout'ы в RL: (i) эволюционирующая целевая политика делает любой фиксированный черновик все более несоответствующим выходному распределению политики; и (ii) размеры активных пакетов (batch) уменьшаются в ходе декодирования rollout'ов, переводя декодирование из вычислительно-затратного режима в режим, ограниченный памятью, где параллельная верификация может использовать недостаточно загруженные вычислительные ресурсы. Таким образом, ускорение rollout'ов в RL требует как черновика, остающегося эффективным при длительных генерациях с высокой температурой от эволюционирующей политики, так и системно-осознанного использования SD, избегающего вычислительно-затратных режимов.
Мы представляем EfficientRollout — системно-осознанную структуру самоспекулятивного декодирования (self-SD), предназначенную для устранения этого пробела в rollout'ах RL. EfficientRollout извлекает квантованный черновик из целевой модели (т.е. самоспекулятивное декодирование), сохраняя его связанным с эволюционирующей политикой без отдельного предобучения черновика или онлайн-адаптации. Он также координирует системно-осознанную политику переключения SD с адаптацией длины черновика, учитывающей уровень принятия, позволяя спекуляцию только в выгодных режимах, при этом согласуя бюджет на черновую генерацию с изменяющимся качеством черновика. EfficientRollout снижает задержку rollout'ов и сквозную задержку на до 19,6% и 12,7% соответственно по сравнению с ускоренным базовым авторегрессивным (AR) rollout'ом, сохраняя качество итоговой модели.
English
Reinforcement learning (RL) has become a representative post-training paradigm for LLMs, enabling strong reasoning and agentic capabilities. However, rollout generation remains a dominant latency bottleneck because autoregressive sampling decodes responses sequentially and a small number of long-tailed generations often determine completion time. Speculative decoding (SD) offers a natural way to address this bottleneck, as it is a well-established technique for serving fixed LLMs that reduces latency by rapidly drafting tokens and accepting them through parallel verification while preserving the target-model distribution. However, its practical speedups do not directly carry over to RL rollouts: (i) the evolving target policy makes any fixed drafter increasingly mismatched with the policy's output distribution; and (ii) active batch sizes shrink throughout rollout decoding, shifting decoding from compute-bound to memory-bound regimes where parallel verification can exploit underutilized compute. Therefore, accelerating RL rollouts requires both a drafter that remains effective under long, high-temperature generations from an evolving policy and system-aware use of SD that avoids compute-bound regimes. We present EfficientRollout, a system-aware self-SD framework designed to address this gap for RL rollouts. EfficientRollout induces a quantized drafter from the target model (i.e. self-speculative decoding), keeping it coupled to the evolving policy without separate drafter pretraining or online adaptation. It further coordinates a system-aware SD toggle policy with acceptance-aware draft-length adaptation, enabling speculation only in beneficial regimes while matching the drafting budget to evolving drafter quality. EfficientRollout reduces rollout and end-to-end latency by up to 19.6% and 12.7%, respectively, over an accelerated AR rollout baseline, while preserving final model quality.