ChatPaper.aiChatPaper

iGRPO: Selbstfeedback-gesteuertes LLM-Reasoning

iGRPO: Self-Feedback-Driven LLM Reasoning

February 9, 2026
papers.authors: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben vielversprechende Fähigkeiten bei der Lösung komplexer mathematischer Probleme gezeigt, liefern jedoch nach wie vor keine durchgängig genauen und konsistenten Lösungen. Reinforcement Learning (RL) ist ein Framework, um diese Modelle an aufgabenspezifische Belohnungen anzupassen und so die Gesamtqualität und Zuverlässigkeit zu verbessern. Group Relative Policy Optimization (GRPO) ist eine effiziente, wertfunktionsfreie Alternative zu Proximal Policy Optimization (PPO), die eine gruppenrelative Belohnungsnormalisierung nutzt. Wir stellen Iterative Group Relative Policy Optimization (iGRPO) vor, eine zweistufige Erweiterung von GRPO, die dynamische Selbstkonditionierung durch modellgenerierte Entwürfe hinzufügt. In Stufe 1 generiert iGRPO mehrere explorative Entwürfe und wählt den Entwurf mit der höchsten Belohnung unter Verwendung desselben skalaren Belohnungssignals aus, das für die Optimierung verwendet wird. In Stufe 2 wird dieser beste Entwurf an den ursprünglichen Prompt angehängt und ein GRPO-artiges Update auf den entwurfsbedingten Verfeinerungen durchgeführt, wodurch die Policy trainiert wird, über ihren bisher stärksten Versuch hinaus zu verbessern. Bei identischen Rollout-Budgets übertrifft iGRPO durchgängig GRPO über verschiedene Basismodelle hinweg (z.B. Nemotron-H-8B-Base-8K und DeepSeek-R1 Distilled), was seine Wirksamkeit auf diversen Reasoning-Benchmarks bestätigt. Darüber hinaus erzielt die Anwendung von iGRPO auf OpenReasoning-Nemotron-7B, das auf AceReason-Math trainiert wurde, mit 85,62 % bzw. 79,64 % neue state-of-the-art Ergebnisse auf AIME24 und AIME25. Ablationstudien zeigen weiterhin, dass das Verfeinerungs-Wrapper-Konzept über GRPO-Varianten hinaus verallgemeinerbar ist, von einem generativen Judge profitiert und die Lern dynamik verändert, indem es den Entropiekollaps verzögert. Diese Ergebnisse unterstreichen das Potenzial von iterativem, auf Selbstfeedback basierendem RL für die Weiterentwicklung von verifizierbarem mathematischem Reasoning.
English
Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.
PDF71February 12, 2026