iGRPO: Ragionamento dei LLM Guidato dal Feedback Automatico

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato potenzialità nel risolvere problemi matematici complessi, ma non sono ancora in grado di produrre soluzioni accurate e consistenti. L'apprendimento per rinforzo (RL) è un framework per allineare questi modelli con ricompense specifiche del compito, migliorando qualità e affidabilità complessive. L'ottimizzazione relativa di gruppo delle politiche (GRPO) è un'alternativa efficiente e priva di funzione di valore all'ottimizzazione prossimale delle politiche (PPO) che sfrutta una normalizzazione delle ricompense relativa al gruppo. Introduciamo l'ottimizzazione relativa di gruppo delle politiche iterativa (iGRPO), un'estensione in due fasi del GRPO che aggiunge un auto-condizionamento dinamico attraverso bozze generate dal modello. Nella Fase 1, iGRPO campiona multiple bozze esplorative e seleziona quella con la ricompensa più alta utilizzando lo stesso segnale di ricompensa scalare usato per l'ottimizzazione. Nella Fase 2, aggiunge questa migliore bozza al prompt originale e applica un aggiornamento in stile GRPO sui perfezionamenti condizionati dalla bozza, addestrando la politica a migliorare oltre il suo precedente tentativo più forte. A parità di budget di rollout, iGRPO supera costantemente il GRPO su vari modelli base (ad esempio, Nemotron-H-8B-Base-8K e DeepSeek-R1 Distilled), convalidando la sua efficacia su benchmark di ragionamento diversificati. Inoltre, applicare iGRPO a OpenReasoning-Nemotron-7B addestrato su AceReason-Math raggiunge nuovi risultati all'avanguardia dell'85,62% e del 79,64% rispettivamente su AIME24 e AIME25. Le ablation study mostrano inoltre che il wrapper di raffinamento generalizza oltre le varianti GRPO, beneficia di un giudice generativo e altera le dinamiche di apprendimento ritardando il collasso dell'entropia. Questi risultati sottolineano il potenziale dell'RL iterativo basato sul feedback autonomo per far progredire il ragionamento matematico verificabile.

English

Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.

iGRPO: Ragionamento dei LLM Guidato dal Feedback Automatico

iGRPO: Self-Feedback-Driven LLM Reasoning

Abstract

Support