iGRPO: Zelf-feedback-gestuurd redeneren van grote taalmodellen

Samenvatting

Grote Taalmodellen (LLM's) hebben hun belofte getoond bij het oplossen van complexe wiskundige problemen, maar slagen er nog steeds niet in om consistente en accurate oplossingen te produceren. Reinforcement Learning (RL) is een raamwerk om deze modellen af te stemmen op taakspecifieke beloningen, wat de algehele kwaliteit en betrouwbaarheid verbetert. Group Relative Policy Optimization (GRPO) is een efficiënt, waardefunctievrij alternatief voor Proximal Policy Optimization (PPO) dat gebruikmaakt van groep-relatieve beloningsnormalisatie. Wij introduceren Iterative Group Relative Policy Optimization (iGRPO), een tweefasen extensie van GRPO die dynamische zelf-conditionering toevoegt via modelgegenereerde concepten. In Fase 1 bemonstert iGRPO meerdere verkennende concepten en selecteert het concept met de hoogste beloning met behulp van hetzelfde scalaire beloningssignaal dat voor optimalisatie wordt gebruikt. In Fase 2 voegt het dit beste concept toe aan de originele prompt en past een GRPO-achtige update toe op concept-geconditioneerde verfijningen, waarbij het beleid wordt getraind om zich te verbeteren ten opzichte van zijn sterkste eerdere poging. Bij gelijke roll-outbudgets presteert iGRPO consistent beter dan GRPO op verschillende basismodellen (bijvoorbeeld Nemotron-H-8B-Base-8K en DeepSeek-R1 Distilled), wat de effectiviteit ervan valideert op diverse redeneerbenchmarks. Bovendien behaalt het toepassen van iGRPO op OpenReasoning-Nemotron-7B, getraind op AceReason-Math, nieuwe state-of-the-art resultaten van respectievelijk 85,62% en 79,64% op AIME24 en AIME25. Ablatiestudies tonen verder aan dat de verfijningswrapper generaliseert buiten GRPO-varianten, profiteert van een generatieve beoordelaar, en de leer dynamiek verandert door entropie-collaps uit te stellen. Deze resultaten onderstrepen het potentieel van iteratieve, op zelf-feedback gebaseerde RL voor het bevorderen van verifieerbaar wiskundig redeneren.

English

Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.

iGRPO: Zelf-feedback-gestuurd redeneren van grote taalmodellen

iGRPO: Self-Feedback-Driven LLM Reasoning

Samenvatting

Support