Медленно-быстрая оптимизация политик: Перепозиционирование перед обновлением для рассуждений в больших языковых моделях

Аннотация

Обучение с подкреплением (RL) стало ключевым подходом для улучшения способности к рассуждению в больших языковых моделях (LLM). Однако алгоритмы, работающие на основе текущей политики, такие как Group Relative Policy Optimization (GRPO), часто сталкиваются с трудностями на ранних этапах обучения: шумные градиенты, вызванные низкокачественными прогонами, приводят к нестабильным обновлениям и неэффективному исследованию. Мы представляем Slow-Fast Policy Optimization (SFPO) — простую, но эффективную структуру, которая устраняет эти ограничения за счёт разложения каждого шага на три этапа: короткий быстрый прогон внутренних шагов на одном и том же батче, механизм перепозиционирования для контроля за отклонением от текущей политики и финальная медленная коррекция. Этот подход "перепозиционирование перед обновлением" сохраняет целевую функцию и процесс прогона неизменными, что делает SFPO совместимым с существующими конвейерами градиентов политики. Многочисленные эксперименты показывают, что SFPO стабильно улучшает устойчивость, сокращает количество прогонов и ускоряет сходимость обучения RL для задач рассуждения. В частности, он превосходит GRPO на 2.80 балла в среднем на тестах математического рассуждения. Кроме того, SFPO достигает лучшей точности GRPO с уменьшением количества прогонов до 4.93 и сокращением времени выполнения на 4.19.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Медленно-быстрая оптимизация политик: Перепозиционирование перед обновлением для рассуждений в больших языковых моделях

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Аннотация

Support