ChatPaper.aiChatPaper

시스템 통합형 추론 스킴을 통한 강화학습 사후 훈련 롤아웃 가속화

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

April 29, 2026
저자: Hayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani
cs.AI

초록

프론티어 언어 모델의 RL 사후 학습은 점차 자기회귀적 롤아웃 생성에 의해 병목 현상이 발생하며, 이로 인해 롤아웃 가속화는 핵심적인 시스템 과제로 대두되고 있습니다. 많은 기존 효율성 방법들은 오프-폴리시 실행, 재생, 낮은 정밀도 생성 등을 통해 롤아웃 또는 최적화 체계를 변경하여 처리량을 향상시킵니다. 우리는 RL 롤아웃을 위한 무손실 가속화 기본 요소로서 스페큘레이티브 디코딩을 연구하며, 이는 타겟 모델의 출력 분포를 보존합니다. 우리는 vLLM 백엔드를 갖춘 NeMo-RL에 스페큘레이티브 디코딩을 구현하여 동기 및 비동기 파이프라인을 모두 지원하고 RL 롤아웃 중 스페큘레이션을 가능하게 합니다. 이 이점은 사전 학습된 MTP 헤드, 소형 외부 드래프트 모델 또는 RL 단계 이후에 전통적으로 적용되던 Eagle3와 같은 기술과 같은 다양한 스페큘레이션 메커니즘에 걸쳐 실현 가능합니다. 이를 통해 RL 훈련 내에서 최첨단 스페큘레이티브 디코딩을 위한 배포 경로가 마련됩니다. 동기식 RL 하에서 8B 규모의 추론 사후 학습 워크로드에서 스페큘레이티브 디코딩은 롤아웃 처리량을 1.8배 향상시킵니다. 높은 정확도의 성능 시뮬레이터를 사용하여, 스페큘레이티브 디코딩과 비동기식 RL을 결합하면 235B 규모에서 최대 2.5배의 종단간 훈련 속도 향상을 기대할 수 있음을 예측합니다.
English
RL post-training of frontier language models is increasingly bottlenecked by autoregressive rollout generation, making rollout acceleration a central systems challenge. Many existing efficiency methods improve throughput by changing the rollout or optimization regime, for example, through off-policy execution, replay, or lower-precision generation. We study speculative decoding as a lossless acceleration primitive for RL rollouts that preserves the target model's output distribution. We implement speculative decoding in NeMo-RL with a vLLM backend, supporting both synchronous and asynchronous pipelines and enabling speculation during RL rollouts. This benefit is realizable across speculation mechanisms, such as pretrained MTP heads, small external draft models or even techniques such as Eagle3, which are traditionally applied after RL phase. This yields a deployment path for state-of-the-art speculative decoding inside RL training. In a reasoning post-training workload at 8B scale under synchronous RL, speculative decoding improves rollout throughput by 1.8x. Using a high-fidelity performance simulator, we project that combining speculative decoding with asynchronous RL yields up to 2.5x end-to-end training speedup at 235B scale.
PDF31May 1, 2026