iGRPO : Raisonnement des LLM piloté par l'auto-feedback

papers.abstract

Les grands modèles de langage (LLM) ont montré des capacités prometteuses pour résoudre des problèmes mathématiques complexes, mais ils peinent encore à produire des solutions précises et cohérentes. L'apprentissage par renforcement (RL) offre un cadre pour aligner ces modèles sur des récompenses spécifiques aux tâches, améliorant ainsi leur qualité et leur fiabilité globales. L'optimisation de politique relative par groupe (GRPO) est une alternative efficace et sans fonction de valeur à l'optimisation de politique proximale (PPO), qui utilise une normalisation des récompenses relative au groupe. Nous présentons l'optimisation de politique relative par groupe itérative (iGRPO), une extension en deux étapes de GRPO qui ajoute un auto-conditionnement dynamique via des ébauches générées par le modèle. Dans l'étape 1, iGRPO échantillonne plusieurs ébauches exploratoires et sélectionne celle ayant la récompense la plus élevée en utilisant le même signal de récompense scalaire que celui utilisé pour l'optimisation. Dans l'étape 2, elle ajoute cette meilleure ébauche à l'invite originale et applique une mise à jour de type GRPO sur des raffinements conditionnés par l'ébauche, entraînant la politique à s'améliorer au-delà de sa meilleure tentative précédente. Avec des budgets de déploiement équivalents, iGRPO surpasse constamment GRPO sur différents modèles de base (par exemple, Nemotron-H-8B-Base-8K et DeepSeek-R1 Distilled), validant son efficacité sur divers benchmarks de raisonnement. De plus, l'application d'iGRPO à OpenReasoning-Nemotron-7B entraîné sur AceReason-Math permet d'atteindre de nouveaux résultats state-of-the-art de 85,62 % et 79,64 % sur AIME24 et AIME25, respectivement. Les études d'ablation montrent en outre que le wrapper de raffinement se généralise au-delà des variantes de GRPO, bénéficie d'un juge génératif et modifie la dynamique d'apprentissage en retardant l'effondrement de l'entropie. Ces résultats soulignent le potentiel du RL itératif basé sur l'auto-feedback pour faire progresser le raisonnement mathématique vérifiable.

English

Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.

iGRPO : Raisonnement des LLM piloté par l'auto-feedback

iGRPO: Self-Feedback-Driven LLM Reasoning

papers.abstract

Support