Optimización de Políticas Lento-Rápido: Reposicionar-Antes-de-Actualizar para el Razonamiento de Modelos de Lenguaje Grande (LLM)
Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
October 5, 2025
Autores: Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un elemento central para mejorar el razonamiento en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, los algoritmos on-policy, como la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), suelen enfrentar dificultades en las primeras etapas de entrenamiento: los gradientes ruidosos provenientes de trayectorias de baja calidad conducen a actualizaciones inestables y a una exploración ineficiente. Introducimos la Optimización de Política Lenta-Rápida (SFPO, por sus siglas en inglés), un marco simple pero eficiente para abordar estas limitaciones mediante la descomposición de cada paso en tres etapas: una trayectoria rápida y corta de pasos internos sobre el mismo lote, un mecanismo de reposicionamiento para controlar la deriva off-policy y una corrección lenta final. Este diseño de reposicionamiento antes de la actualización preserva el objetivo y el proceso de trayectoria sin cambios, lo que hace que SFPO sea compatible con las canalizaciones existentes de gradiente de política. Experimentos exhaustivos demuestran que SFPO mejora consistentemente la estabilidad, reduce las trayectorias y acelera la convergencia del entrenamiento de RL para el razonamiento. En concreto, supera a GRPO en hasta 2.80 puntos en promedio en benchmarks de razonamiento matemático. También logra hasta 4.93 trayectorias menos y una reducción de 4.19 en el tiempo de reloj para igualar la mejor precisión de GRPO.
English
Reinforcement learning (RL) has become central to enhancing reasoning in
large language models (LLMs). Yet on-policy algorithms such as Group Relative
Policy Optimization (GRPO) often suffer in early training: noisy gradients from
low-quality rollouts lead to unstable updates and inefficient exploration. We
introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient
framework to address these limitations via decomposing each step into three
stages: a short fast trajectory of inner steps on the same batch, a reposition
mechanism to control off-policy drift, and a final slow correction. This
reposition-before-update design preserves the objective and rollout process
unchanged, making SFPO plug-compatible with existing policy-gradient pipelines.
Extensive experiments demonstrate that SFPO consistently improves stability,
reduces rollouts, and accelerates convergence of reasoning RL training.
Specifically, it outperforms GRPO by up to 2.80 points in average on math
reasoning benchmarks. It also achieves up to 4.93 fewer rollouts
and a 4.19 reduction in wall-clock time to match GRPO's best
accuracy.