Медленно-быстрая оптимизация политик: Перепозиционирование перед обновлением для рассуждений в больших языковых моделях
Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning
October 5, 2025
Авторы: Ziyan Wang, Zheng Wang, Jie Fu, Xingwei Qu, Qi Cheng, Shengpu Tang, Minjia Zhang, Xiaoming Huo
cs.AI
Аннотация
Обучение с подкреплением (RL) стало ключевым подходом для улучшения способности к рассуждению в больших языковых моделях (LLM). Однако алгоритмы, работающие на основе текущей политики, такие как Group Relative Policy Optimization (GRPO), часто сталкиваются с трудностями на ранних этапах обучения: шумные градиенты, вызванные низкокачественными прогонами, приводят к нестабильным обновлениям и неэффективному исследованию. Мы представляем Slow-Fast Policy Optimization (SFPO) — простую, но эффективную структуру, которая устраняет эти ограничения за счёт разложения каждого шага на три этапа: короткий быстрый прогон внутренних шагов на одном и том же батче, механизм перепозиционирования для контроля за отклонением от текущей политики и финальная медленная коррекция. Этот подход "перепозиционирование перед обновлением" сохраняет целевую функцию и процесс прогона неизменными, что делает SFPO совместимым с существующими конвейерами градиентов политики. Многочисленные эксперименты показывают, что SFPO стабильно улучшает устойчивость, сокращает количество прогонов и ускоряет сходимость обучения RL для задач рассуждения. В частности, он превосходит GRPO на 2.80 балла в среднем на тестах математического рассуждения. Кроме того, SFPO достигает лучшей точности GRPO с уменьшением количества прогонов до 4.93 и сокращением времени выполнения на 4.19.
English
Reinforcement learning (RL) has become central to enhancing reasoning in
large language models (LLMs). Yet on-policy algorithms such as Group Relative
Policy Optimization (GRPO) often suffer in early training: noisy gradients from
low-quality rollouts lead to unstable updates and inefficient exploration. We
introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient
framework to address these limitations via decomposing each step into three
stages: a short fast trajectory of inner steps on the same batch, a reposition
mechanism to control off-policy drift, and a final slow correction. This
reposition-before-update design preserves the objective and rollout process
unchanged, making SFPO plug-compatible with existing policy-gradient pipelines.
Extensive experiments demonstrate that SFPO consistently improves stability,
reduces rollouts, and accelerates convergence of reasoning RL training.
Specifically, it outperforms GRPO by up to 2.80 points in average on math
reasoning benchmarks. It also achieves up to 4.93 fewer rollouts
and a 4.19 reduction in wall-clock time to match GRPO's best
accuracy.