ChatPaper.aiChatPaper

iGRPO: 自己フィードバック駆動型大規模言語モデル推論

iGRPO: Self-Feedback-Driven LLM Reasoning

February 9, 2026
著者: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz
cs.AI

要旨

大規模言語モデル(LLM)は複雑な数学的問題を解決する可能性を示しているが、正確で一貫性のある解法を生成する点では依然として課題を残している。強化学習(RL)は、タスク固有の報酬に合わせてこれらのモデルを調整し、全体的な品質と信頼性を向上させる枠組みである。Group Relative Policy Optimization(GRPO)は、グループ相対的報酬正規化を活用した、近接方策最適化(PPO)に代わる効率的で価値関数を必要としない手法である。本論文では、モデルが生成した下書きを通じて動的な自己条件付けを追加する、GRPOの2段階拡張であるIterative Group Relative Policy Optimization(iGRPO)を提案する。第1段階では、iGRPOは複数の探索的下書きをサンプリングし、最適化に使用するものと同じスカラー報酬信号を用いて最高報酬の下書きを選択する。第2段階では、この最良の下書きを元のプロンプトに追加し、下書きを条件とした改良版に対してGRPOスタイルの更新を適用し、自身の以前の最良の試行を超えて改善するように方策を訓練する。同一のロールアウト予算の下で、iGRPOはベースモデル(例:Nemotron-H-8B-Base-8K、DeepSeek-R1 Distilled)において一貫してGRPOを上回り、多様な推論ベンチマークにおけるその有効性を実証した。さらに、AceReason-Mathで学習されたOpenReasoning-Nemotron-7BにiGRPOを適用した結果、AIME24およびAIME25において、それぞれ85.62%、79.64%という新たなstate-of-the-art結果を達成した。アブレーション研究はさらに、この改良ラッパーがGRPOの亜種を超えて一般化し、生成的ジャッジから恩恵を得られ、エントロピーの急減を遅らせることで学習ダイナミクスを変化させることを示した。これらの結果は、検証可能な数学的推論を進歩させるための、反復的かつ自己フィードバックに基づくRLの可能性を強調するものである。
English
Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.
PDF71February 12, 2026