iGRPO: Raciocínio em LLM Orientado por Auto-Feedback

Resumo

Os Grandes Modelos de Linguagem (LLMs) têm demonstrado potencial na resolução de problemas matemáticos complexos, mas ainda ficam aquém de produzir soluções precisas e consistentes. O Aprendizado por Reforço (RL) é uma estrutura para alinhar esses modelos com recompensas específicas da tarefa, melhorando a qualidade geral e a confiabilidade. A Otimização de Política Relativa ao Grupo (GRPO) é uma alternativa eficiente e livre de função de valor à Otimização de Política Proximal (PPO) que aproveita a normalização de recompensa relativa ao grupo. Introduzimos a Otimização de Política Relativa ao Grupo Iterativa (iGRPO), uma extensão em dois estágios da GRPO que adiciona o autocondicionamento dinâmico por meio de rascunhos gerados pelo modelo. No Estágio 1, a iGRPO amostra múltiplos rascunhos exploratórios e seleciona o rascunho de maior recompensa usando o mesmo sinal de recompensa escalar usado para a otimização. No Estágio 2, ela anexa este melhor rascunho ao prompt original e aplica uma atualização no estilo GRPO em refinamentos condicionados ao rascunho, treinando a política para melhorar além de sua tentativa prévia mais forte. Com orçamentos de rollout equivalentes, a iGRPO supera consistentemente a GRPO em modelos base (por exemplo, Nemotron-H-8B-Base-8K e DeepSeek-R1 Distilled), validando sua eficácia em diversos benchmarks de raciocínio. Além disso, aplicar a iGRPO ao OpenReasoning-Nemotron-7B treinado no AceReason-Math atinge novos resultados state-of-the-art de 85,62% e 79,64% no AIME24 e AIME25, respectivamente. Ablações mostram ainda que o wrapper de refinamento generaliza-se para além das variantes da GRPO, beneficia-se de um juiz generativo e altera a dinâmica de aprendizado ao retardar o colapso da entropia. Esses resultados ressaltam o potencial do RL iterativo baseado em autorretroalimentação para avançar o raciocínio matemático verificável.

English

Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.

iGRPO: Raciocínio em LLM Orientado por Auto-Feedback

iGRPO: Self-Feedback-Driven LLM Reasoning

Resumo

Support