ChatPaper.aiChatPaper

iGRPO: Razonamiento de LLM Impulsado por Autoretroalimentación

iGRPO: Self-Feedback-Driven LLM Reasoning

February 9, 2026
Autores: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLMs) han mostrado potencial para resolver problemas matemáticos complejos, pero aún no logran producir soluciones precisas y consistentes. El Aprendizaje por Refuerzo (RL) es un marco para alinear estos modelos con recompensas específicas de la tarea, mejorando la calidad general y la fiabilidad. La Optimización de Políticas Relativa al Grupo (GRPO) es una alternativa eficiente y libre de función de valor a la Optimización de Políticas Proximales (PPO) que aprovecha la normalización de recompensas relativa al grupo. Introducimos la Optimización de Políticas Relativa al Grupo Iterativa (iGRPO), una extensión de GRPO en dos etapas que añade auto-condicionamiento dinámico mediante borradores generados por el modelo. En la Etapa 1, iGRPO muestrea múltiples borradores exploratorios y selecciona el borrador con mayor recompensa utilizando la misma señal de recompensa escalar empleada para la optimización. En la Etapa 2, añade este mejor borrador al *prompt* original y aplica una actualización al estilo GRPO sobre refinamientos condicionados por el borrador, entrenando la política para mejorar más allá de su intento previo más sólido. Con presupuestos de *rollout* equivalentes, iGRPO supera consistentemente a GRPO en varios modelos base (por ejemplo, Nemotron-H-8B-Base-8K y DeepSeek-R1 Distilled), validando su eficacia en diversos puntos de referencia de razonamiento. Además, aplicar iGRPO a OpenReasoning-Nemotron-7B entrenado en AceReason-Math logra nuevos resultados de vanguardia del 85.62 % y 79.64 % en AIME24 y AIME25, respectivamente. Las ablaciones muestran además que el *wrapper* de refinamiento generaliza más allá de las variantes de GRPO, se beneficia de un juez generativo y altera la dinámica de aprendizaje al retrasar el colapso de la entropía. Estos resultados subrayan el potencial del RL iterativo basado en auto-retroalimentación para avanzar en el razonamiento matemático verificable.
English
Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.
PDF71February 12, 2026