슬로우-패스트 정책 최적화: LLM 추론을 위한 업데이트 전 재배치
Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
October 5, 2025
저자: Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo
cs.AI
초록
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 데 핵심적인 역할을 하고 있습니다. 그러나 Group Relative Policy Optimization(GRPO)과 같은 온-정책(on-policy) 알고리즘은 초기 학습 단계에서 어려움을 겪는 경우가 많습니다: 저품질 롤아웃(rollout)으로 인한 노이즈가 포함된 그래디언트는 불안정한 업데이트와 비효율적인 탐색을 초래합니다. 본 연구에서는 이러한 한계를 해결하기 위해 Slow-Fast Policy Optimization(SFPO)이라는 간단하면서도 효율적인 프레임워크를 제안합니다. SFPO는 각 단계를 세 단계로 분해합니다: 동일한 배치에 대한 짧은 빠른 내부 단계 트래젝토리, 오프-정책 드리프트(off-policy drift)를 제어하기 위한 재배치 메커니즘, 그리고 최종적인 느린 보정 단계입니다. 이 '업데이트 전 재배치' 설계는 목적 함수와 롤아웃 프로세스를 변경하지 않고 유지하므로, SFPO는 기존의 정책 그래디언트 파이프라인과 플러그-호환 가능합니다. 광범위한 실험을 통해 SFPO가 안정성을 개선하고, 롤아웃 횟수를 줄이며, 추론 RL 학습의 수렴 속도를 가속화함을 입증했습니다. 특히, 수학 추론 벤치마크에서 SFPO는 GRPO 대비 평균 2.80점 더 높은 성능을 보였습니다. 또한 GRPO의 최고 정확도에 도달하기 위해 최대 4.93회 적은 롤아웃과 4.19배 단축된 실제 시간을 달성했습니다.
English
Reinforcement learning (RL) has become central to enhancing reasoning in
large language models (LLMs). Yet on-policy algorithms such as Group Relative
Policy Optimization (GRPO) often suffer in early training: noisy gradients from
low-quality rollouts lead to unstable updates and inefficient exploration. We
introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient
framework to address these limitations via decomposing each step into three
stages: a short fast trajectory of inner steps on the same batch, a reposition
mechanism to control off-policy drift, and a final slow correction. This
reposition-before-update design preserves the objective and rollout process
unchanged, making SFPO plug-compatible with existing policy-gradient pipelines.
Extensive experiments demonstrate that SFPO consistently improves stability,
reduces rollouts, and accelerates convergence of reasoning RL training.
Specifically, it outperforms GRPO by up to 2.80 points in average on math
reasoning benchmarks. It also achieves up to 4.93 fewer rollouts
and a 4.19 reduction in wall-clock time to match GRPO's best
accuracy.