Optimisation de Politique Lente-Rapide : Repositionnement-Avant-Mise à Jour pour le Raisonnement des Modèles de Langage à Grande Échelle

papers.abstract

L'apprentissage par renforcement (RL) est devenu central pour améliorer le raisonnement dans les grands modèles de langage (LLMs). Cependant, les algorithmes on-policy tels que l'Optimisation de Politique Relative par Groupe (GRPO) souffrent souvent en début d'entraînement : des gradients bruités provenant de trajectoires de faible qualité entraînent des mises à jour instables et une exploration inefficace. Nous introduisons l'Optimisation de Politique Lente-Rapide (SFPO), un cadre simple mais efficace pour résoudre ces limitations en décomposant chaque étape en trois phases : une courte trajectoire rapide de pas internes sur le même lot, un mécanisme de repositionnement pour contrôler la dérive off-policy, et une correction lente finale. Cette conception de repositionnement avant mise à jour préserve l'objectif et le processus de trajectoire inchangés, rendant SFPO compatible avec les pipelines existants de gradient de politique. Des expériences approfondies démontrent que SFPO améliore systématiquement la stabilité, réduit les trajectoires et accélère la convergence de l'entraînement RL pour le raisonnement. Plus précisément, il surpasse GRPO jusqu'à 2,80 points en moyenne sur des benchmarks de raisonnement mathématique. Il réalise également jusqu'à 4,93 trajectoires en moins et une réduction de 4,19 du temps d'exécution pour atteindre la meilleure précision de GRPO.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Optimisation de Politique Lente-Rapide : Repositionnement-Avant-Mise à Jour pour le Raisonnement des Modèles de Langage à Grande Échelle

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

papers.abstract

Support