ChatPaper.aiChatPaper

Critique-GRPO: Verbetering van LLM-redenering met feedback in natuurlijke taal en numerieke vorm

Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback

June 3, 2025
Auteurs: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI

Samenvatting

Recente vooruitgang in reinforcement learning (RL) met numerieke feedback, zoals scalaire beloningen, heeft de complexe redeneervaardigheden van grote taalmodellen (LLMs) aanzienlijk verbeterd. Ondanks dit succes identificeren we drie belangrijke uitdagingen waar RL met uitsluitend numerieke feedback tegenaan loopt: prestatieplateaus, beperkte effectiviteit van zelfreflectie en aanhoudende fouten. Vervolgens tonen we aan dat RL-fijn afgestemde modellen, zelfs na het bereiken van prestatieplateaus, correcte verfijningen kunnen genereren voor problemen met aanhoudende fouten door gebruik te maken van natuurlijke taal feedback in de vorm van kritieken. Op basis van dit inzicht stellen we Critique-GRPO voor, een online RL-framework dat zowel natuurlijke taal als numerieke feedback integreert voor effectieve beleidsoptimalisatie. Critique-GRPO stelt LLMs in staat om te leren van initiële reacties en kritiek-gestuurde verfijningen tegelijkertijd, terwijl exploratie behouden blijft. Uitgebreide experimenten met Qwen2.5-7B-Base en Qwen3-8B-Base laten zien dat Critique-GRPO consistent beter presteert dan op supervised learning gebaseerde en RL-gebaseerde fijn afstemmingsbenaderingen over acht uitdagende wiskundige, STEM- en algemene redeneertaken, waarbij de gemiddelde pass@1-scores met respectievelijk ongeveer 4,5% en 5% verbeteren. Opmerkelijk is dat Critique-GRPO een sterke baseline overtreft die expertdemonstraties integreert binnen online RL. Verdere analyse onthult twee kritische inzichten over beleidsexploratie: (1) hogere entropie garandeert niet altijd efficiënt leren door exploratie, en (2) langere reacties leiden niet noodzakelijk tot effectievere exploratie.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such as scalar rewards, have significantly enhanced the complex reasoning capabilities of large language models (LLMs). Despite this success, we identify three key challenges encountered by RL with solely numerical feedback: performance plateaus, limited effectiveness of self-reflection, and persistent failures. We then demonstrate that RL-finetuned models, even after exhibiting performance plateaus, can generate correct refinements on persistently failed problems by leveraging natural language feedback in the form of critiques. Building on this insight, we propose Critique-GRPO, an online RL framework that integrates both natural language and numerical feedback for effective policy optimization. Critique-GRPO enables LLMs to learn from initial responses and critique-guided refinements simultaneously while maintaining exploration. Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that Critique-GRPO consistently outperforms supervised learning-based and RL-based fine-tuning approaches across eight challenging mathematical, STEM, and general reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%, respectively. Notably, Critique-GRPO surpasses a strong baseline that incorporates expert demonstrations within online RL. Further analysis reveals two critical insights about policy exploration: (1) higher entropy does not always guarantee efficient learning from exploration, and (2) longer responses do not necessarily lead to more effective exploration.
PDF62June 5, 2025