iGRPO: 자기 피드백 기반 대규모 언어 모델 추론
iGRPO: Self-Feedback-Driven LLM Reasoning
February 9, 2026
저자: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz
cs.AI
초록
대규모 언어 모델(LLM)은 복잡한 수학 문제 해결에 유망한 성능을 보이지만, 여전히 정확하고 일관된 해법을 산출하는 데는 한계가 있습니다. 강화 학습(RL)은 이러한 모델을 작업별 보상에 정렬시켜 전반적인 품질과 신뢰성을 향상시키는 프레임워크입니다. 그룹 상대 정책 최적화(GRPO)는 그룹 상대 보상 정규화를 활용하는, 근위 정책 최적화(PPO)에 대한 효율적이고 가치 함수가 없는 대안입니다. 본 논문에서는 모델 생성 초안을 통한 동적 자기 조건화를 추가한 GRPO의 2단계 확장인 반복적 그룹 상대 정책 최적화(iGRPO)를 소개합니다. 1단계에서 iGRPO는 여러 탐색적 초안을 샘플링하고 최적화에 사용된 것과 동일한 스칼라 보상 신호를 사용하여 가장 높은 보상을 받은 초안을 선택합니다. 2단계에서는 이 최상의 초안을 원래 프롬프트에 추가하고 초안 조건화 개선 작업에 GRPO 방식의 업데이트를 적용하여, 정책이 이전 최선의 시도보다 향상되도록 훈련합니다. 동일한 롤아웃 예산 하에서 iGRPO는 기본 모델(예: Nemotron-H-8B-Base-8K 및 DeepSeek-R1 Distilled)에서 GRPO를 지속적으로 능가하며, 다양한 추론 벤치마크에서의 효과를 입증했습니다. 더 나아가, AceReason-Math로 훈련된 OpenReasoning-Nemotron-7B에 iGRPO를 적용하면 AIME24와 AIME25에서 각각 85.62%, 79.64%의 새로운 최첨단 결과를 달성합니다. 추가 분석은 정제 래퍼가 GRPO 변형을 넘어 일반화되며, 생성적 판단으로부터 이점을 얻고, 엔트로피 붕괴를 지연시켜 학습 역학을 변경함을 보여줍니다. 이러한 결과는 검증 가능한 수학적 추론 발전을 위한 반복적 자기 피드백 기반 RL의 잠재력을 강조합니다.
English
Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.