Otimização de Política Lenta-Rápida: Reposicionar-Antes-de-Atualizar para Raciocínio em LLM

Resumo

O aprendizado por reforço (RL) tornou-se central para aprimorar o raciocínio em modelos de linguagem de grande escala (LLMs). No entanto, algoritmos on-policy, como o Group Relative Policy Optimization (GRPO), frequentemente enfrentam dificuldades no início do treinamento: gradientes ruidosos provenientes de rollouts de baixa qualidade levam a atualizações instáveis e exploração ineficiente. Introduzimos o Slow-Fast Policy Optimization (SFPO), uma estrutura simples, porém eficiente, para abordar essas limitações por meio da decomposição de cada etapa em três fases: uma trajetória rápida e curta de passos internos no mesmo lote, um mecanismo de reposicionamento para controlar o desvio off-policy e uma correção lenta final. Esse design de reposicionamento antes da atualização preserva o objetivo e o processo de rollout inalterados, tornando o SFPO compatível com pipelines existentes de gradiente de política. Experimentos extensivos demonstram que o SFPO melhora consistentemente a estabilidade, reduz rollouts e acelera a convergência do treinamento de RL para raciocínio. Especificamente, ele supera o GRPO em até 2,80 pontos na média em benchmarks de raciocínio matemático. Além disso, alcança até 4,93 rollouts a menos e uma redução de 4,19 no tempo de execução para igualar a melhor precisão do GRPO.

English

Reinforcement learning (RL) has become central to enhancing reasoning in large language models (LLMs). Yet on-policy algorithms such as Group Relative Policy Optimization (GRPO) often suffer in early training: noisy gradients from low-quality rollouts lead to unstable updates and inefficient exploration. We introduce Slow-Fast Policy Optimization (SFPO), a simple yet efficient framework to address these limitations via decomposing each step into three stages: a short fast trajectory of inner steps on the same batch, a reposition mechanism to control off-policy drift, and a final slow correction. This reposition-before-update design preserves the objective and rollout process unchanged, making SFPO plug-compatible with existing policy-gradient pipelines. Extensive experiments demonstrate that SFPO consistently improves stability, reduces rollouts, and accelerates convergence of reasoning RL training. Specifically, it outperforms GRPO by up to 2.80 points in average on math reasoning benchmarks. It also achieves up to 4.93 fewer rollouts and a 4.19 reduction in wall-clock time to match GRPO's best accuracy.

Otimização de Política Lenta-Rápida: Reposicionar-Antes-de-Atualizar para Raciocínio em LLM

Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning

Resumo

Support