Ottimizzazione delle Politiche Lento-Veloce: Riposizionamento-Prima-dell'Aggiornamento per il Ragionamento con LLM
Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
October 5, 2025
Autori: Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo
cs.AI
Abstract
L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato centrale per migliorare il ragionamento nei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, algoritmi on-policy come l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO) spesso incontrano difficoltà nelle fasi iniziali dell'addestramento: gradienti rumorosi derivanti da rollout di bassa qualità portano a aggiornamenti instabili e a un'esplorazione inefficiente. Introduciamo l'ottimizzazione delle politiche lenta-veloce (Slow-Fast Policy Optimization, SFPO), un framework semplice ma efficiente per affrontare queste limitazioni, scomponendo ogni passo in tre fasi: una breve traiettoria veloce di passi interni sullo stesso batch, un meccanismo di riposizionamento per controllare la deriva off-policy e una correzione lenta finale. Questo design di riposizionamento prima dell'aggiornamento preserva l'obiettivo e il processo di rollout invariati, rendendo SFPO compatibile con le pipeline esistenti di gradienti delle politiche. Esperimenti estesi dimostrano che SFPO migliora costantemente la stabilità, riduce i rollout e accelera la convergenza dell'addestramento RL per il ragionamento. In particolare, supera GRPO fino a 2,80 punti in media nei benchmark di ragionamento matematico. Ottiene anche fino a 4,93 rollout in meno e una riduzione del 4,19 nel tempo di esecuzione per raggiungere la migliore accuratezza di GRPO.
English
Reinforcement learning (RL) has become central to enhancing reasoning in
large language models (LLMs). Yet on-policy algorithms such as Group Relative
Policy Optimization (GRPO) often suffer in early training: noisy gradients from
low-quality rollouts lead to unstable updates and inefficient exploration. We
introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient
framework to address these limitations via decomposing each step into three
stages: a short fast trajectory of inner steps on the same batch, a reposition
mechanism to control off-policy drift, and a final slow correction. This
reposition-before-update design preserves the objective and rollout process
unchanged, making SFPO plug-compatible with existing policy-gradient pipelines.
Extensive experiments demonstrate that SFPO consistently improves stability,
reduces rollouts, and accelerates convergence of reasoning RL training.
Specifically, it outperforms GRPO by up to 2.80 points in average on math
reasoning benchmarks. It also achieves up to 4.93 fewer rollouts
and a 4.19 reduction in wall-clock time to match GRPO's best
accuracy.