Critique-GRPO: Verbetering van LLM-redenering met feedback in natuurlijke taal en numerieke vorm
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Auteurs: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Samenvatting
Recente vooruitgang in reinforcement learning (RL) met numerieke feedback, zoals
scalaire beloningen, heeft de complexe redeneervaardigheden van grote taalmodellen (LLMs) aanzienlijk verbeterd. Ondanks dit succes identificeren we
drie belangrijke uitdagingen waar RL met uitsluitend numerieke feedback tegenaan loopt:
prestatieplateaus, beperkte effectiviteit van zelfreflectie en aanhoudende fouten. Vervolgens tonen we aan dat RL-fijn afgestemde modellen, zelfs na het bereiken van prestatieplateaus, correcte verfijningen kunnen genereren voor problemen met aanhoudende fouten door gebruik te maken van natuurlijke taal feedback in de vorm van kritieken. Op basis van dit inzicht stellen we Critique-GRPO voor, een online RL-framework dat
zowel natuurlijke taal als numerieke feedback integreert voor effectieve beleidsoptimalisatie. Critique-GRPO stelt LLMs in staat om te leren van initiële reacties en
kritiek-gestuurde verfijningen tegelijkertijd, terwijl exploratie behouden blijft. Uitgebreide experimenten met Qwen2.5-7B-Base en Qwen3-8B-Base laten zien dat
Critique-GRPO consistent beter presteert dan op supervised learning gebaseerde en RL-gebaseerde fijn afstemmingsbenaderingen over acht uitdagende wiskundige, STEM- en algemene redeneertaken, waarbij de gemiddelde pass@1-scores met respectievelijk ongeveer 4,5% en 5% verbeteren. Opmerkelijk is dat Critique-GRPO een sterke baseline overtreft die
expertdemonstraties integreert binnen online RL. Verdere analyse onthult twee kritische inzichten over beleidsexploratie: (1) hogere entropie garandeert niet altijd efficiënt leren door exploratie, en (2) langere reacties leiden niet noodzakelijk tot effectievere exploratie.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.