Slow-Fast Policy Optimization: Reposition-Before-Update für LLM-Reasoning

papers.abstract

Reinforcement Learning (RL) hat eine zentrale Rolle bei der Verbesserung des logischen Denkens in großen Sprachmodellen (LLMs) eingenommen. Dennoch leiden On-Policy-Algorithmen wie Group Relative Policy Optimization (GRPO) häufig in der frühen Trainingsphase: verrauschte Gradienten aufgrund von qualitativ minderwertigen Rollouts führen zu instabilen Updates und ineffizienter Exploration. Wir stellen Slow-Fast Policy Optimization (SFPO) vor, ein einfaches, aber effizientes Framework, das diese Einschränkungen durch die Zerlegung jedes Schritts in drei Phasen adressiert: eine kurze, schnelle Trajektorie von inneren Schritten auf demselben Batch, einen Repositionierungsmechanismus zur Kontrolle des Off-Policy-Drifts und eine abschließende langsame Korrektur. Dieser Reposition-before-Update-Ansatz bewahrt das Ziel und den Rollout-Prozess unverändert, wodurch SFPO plug-kompatibel mit bestehenden Policy-Gradient-Pipelines bleibt. Umfangreiche Experimente zeigen, dass SFPO die Stabilität konsequent verbessert, die Anzahl der Rollouts reduziert und die Konvergenz des RL-Trainings für logisches Denken beschleunigt. Insbesondere übertrifft es GRPO um bis zu 2,80 Punkte im Durchschnitt bei mathematischen Denkbenchmarks. Es erreicht auch bis zu 4,93 weniger Rollouts und eine Reduzierung der Wall-Clock-Zeit um 4,19, um die beste Genauigkeit von GRPO zu erreichen.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Slow-Fast Policy Optimization: Reposition-Before-Update für LLM-Reasoning

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

papers.abstract

Support