Ottimizzazione delle Politiche Lento-Veloce: Riposizionamento-Prima-dell'Aggiornamento per il Ragionamento con LLM

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato centrale per migliorare il ragionamento nei grandi modelli linguistici (Large Language Models, LLMs). Tuttavia, algoritmi on-policy come l'ottimizzazione delle politiche relative di gruppo (Group Relative Policy Optimization, GRPO) spesso incontrano difficoltà nelle fasi iniziali dell'addestramento: gradienti rumorosi derivanti da rollout di bassa qualità portano a aggiornamenti instabili e a un'esplorazione inefficiente. Introduciamo l'ottimizzazione delle politiche lenta-veloce (Slow-Fast Policy Optimization, SFPO), un framework semplice ma efficiente per affrontare queste limitazioni, scomponendo ogni passo in tre fasi: una breve traiettoria veloce di passi interni sullo stesso batch, un meccanismo di riposizionamento per controllare la deriva off-policy e una correzione lenta finale. Questo design di riposizionamento prima dell'aggiornamento preserva l'obiettivo e il processo di rollout invariati, rendendo SFPO compatibile con le pipeline esistenti di gradienti delle politiche. Esperimenti estesi dimostrano che SFPO migliora costantemente la stabilità, riduce i rollout e accelera la convergenza dell'addestramento RL per il ragionamento. In particolare, supera GRPO fino a 2,80 punti in media nei benchmark di ragionamento matematico. Ottiene anche fino a 4,93 rollout in meno e una riduzione del 4,19 nel tempo di esecuzione per raggiungere la migliore accuratezza di GRPO.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Ottimizzazione delle Politiche Lento-Veloce: Riposizionamento-Prima-dell'Aggiornamento per il Ragionamento con LLM

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Abstract

Support