iGRPO: Самокорректирующее рассуждение крупных языковых моделей
iGRPO: Self-Feedback-Driven LLM Reasoning
February 9, 2026
Авторы: Ali Hatamizadeh, Shrimai Prabhumoye, Igor Gitman, Ximing Lu, Seungju Han, Wei Ping, Yejin Choi, Jan Kautz
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют потенциал в решении сложных математических задач, однако пока не способны стабильно выдавать точные решения. Обучение с подкреплением (RL) представляет собой методологию для согласования этих моделей с целевыми функциями, что повышает общее качество и надежность. Оптимизация групповой относительной политики (GRPO) — это эффективная альтернатива проксимальной оптимизации политики (PPO), не требующая функции ценности и использующая нормализацию вознаграждения на основе группового сравнения. Мы представляем Итеративную оптимизацию групповой относительной политики (iGRPO) — двухэтапное расширение GRPO, которое добавляет динамическое самокондиционирование через черновики, генерируемые моделью. На Этапе 1 iGRPO семплирует несколько исследовательских черновиков и выбирает вариант с наивысшим вознаграждением, используя ту же скалярную функцию, что и для оптимизации. На Этапе 2 выбранный черновик добавляется к исходному промпту, и применяется GRPO-обновление для усовершенствования кондиционированного решения, обучая политику улучшать свои предыдущие лучшие попытки. При равном бюджете генерации iGRPO стабильно превосходит GRPO на различных базовых моделях (например, Nemotron-H-8B-Base-8K и DeepSeek-R1 Distilled), что подтверждает ее эффективность на разнообразных бенчмарках логического вывода. Более того, применение iGRPO к модели OpenReasoning-Nemotron-7B, дообученной на AceReason-Math, позволяет достичь новых рекордных результатов в 85.62% и 79.64% на AIME24 и AIME25 соответственно. Абляционные исследования дополнительно показывают, что обертка рефайнмента обобщается за пределы вариантов GRPO, выигрывает от использования генеративного судьи и изменяет динамику обучения, откладывая коллапс энтропии. Эти результаты подчеркивают потенциал итеративного RL на основе самоконтроля для развития верифицируемого математического мышления.
English
Large Language Models (LLMs) have shown promise in solving complex mathematical problems, yet they still fall short of producing accurate and consistent solutions. Reinforcement Learning (RL) is a framework for aligning these models with task-specific rewards, improving overall quality and reliability. Group Relative Policy Optimization (GRPO) is an efficient, value-function-free alternative to Proximal Policy Optimization (PPO) that leverages group-relative reward normalization. We introduce Iterative Group Relative Policy Optimization (iGRPO), a two-stage extension of GRPO that adds dynamic self-conditioning through model-generated drafts. In Stage 1, iGRPO samples multiple exploratory drafts and selects the highest-reward draft using the same scalar reward signal used for optimization. In Stage 2, it appends this best draft to the original prompt and applies a GRPO-style update on draft-conditioned refinements, training the policy to improve beyond its strongest prior attempt. Under matched rollout budgets, iGRPO consistently outperforms GRPO across base models (e.g., Nemotron-H-8B-Base-8K and DeepSeek-R1 Distilled), validating its effectiveness on diverse reasoning benchmarks. Moreover, applying iGRPO to OpenReasoning-Nemotron-7B trained on AceReason-Math achieves new state-of-the-art results of 85.62\% and 79.64\% on AIME24 and AIME25, respectively. Ablations further show that the refinement wrapper generalizes beyond GRPO variants, benefits from a generative judge, and alters learning dynamics by delaying entropy collapse. These results underscore the potential of iterative, self-feedback-based RL for advancing verifiable mathematical reasoning.