Slow-Fast Policy Optimalisatie: Herpositioneren-Voor-Bijwerken voor LLM Redeneren

Samenvatting

Versterkend leren (Reinforcement Learning, RL) is cruciaal geworden voor het verbeteren van redeneervaardigheden in grote taalmmodellen (Large Language Models, LLMs). Toch hebben on-policy algoritmen zoals Group Relative Policy Optimization (GRPO) vaak problemen in de vroege trainingsfase: ruis in de gradients door rollouts van lage kwaliteit leidt tot instabiele updates en inefficiënte exploratie. Wij introduceren Slow-Fast Policy Optimization (SFPO), een eenvoudig maar efficiënt raamwerk om deze beperkingen aan te pakken door elke stap op te delen in drie fasen: een korte, snelle traject van innerlijke stappen op dezelfde batch, een herpositioneringsmechanisme om off-policy drift te beheersen, en een uiteindelijke langzame correctie. Dit herpositioneer-voor-update ontwerp behoudt het doel en het rolloutproces ongewijzigd, waardoor SFPO plug-compatibel is met bestaande policy-gradient pijplijnen. Uitgebreide experimenten tonen aan dat SFPO consistent de stabiliteit verbetert, het aantal rollouts vermindert en de convergentie van RL-training voor redeneren versnelt. Specifiek presteert het tot 2,80 punten beter dan GRPO gemiddeld op wiskundige redeneerbenchmarks. Het bereikt ook tot 4,93 minder rollouts en een reductie van 4,19 in wall-clock tijd om de beste nauwkeurigheid van GRPO te evenaren.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Slow-Fast Policy Optimalisatie: Herpositioneren-Voor-Bijwerken voor LLM Redeneren

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Samenvatting

Support