Critique-GRPO: Verbesserung des LLM-Denkens durch natürliche Sprach- und numerische Rückmeldungen
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Autoren: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Zusammenfassung
Jüngste Fortschritte im Bereich des Reinforcement Learning (RL) mit numerischem Feedback, wie beispielsweise skalaren Belohnungen, haben die komplexen Denkfähigkeiten großer Sprachmodelle (LLMs) erheblich verbessert. Trotz dieser Erfolge identifizieren wir drei zentrale Herausforderungen, die RL mit ausschließlich numerischem Feedback begegnet: Leistungsplateaus, begrenzte Wirksamkeit der Selbstreflexion und anhaltende Fehler. Wir zeigen dann, dass RL-feinabgestimmte Modelle, selbst nachdem sie Leistungsplateaus erreicht haben, korrekte Verfeinerungen bei anhaltend fehlgeschlagenen Problemen generieren können, indem sie natürliches Sprachfeedback in Form von Kritiken nutzen. Aufbauend auf dieser Erkenntnis schlagen wir Critique-GRPO vor, ein Online-RL-Framework, das sowohl natürliches Sprach- als auch numerisches Feedback für eine effektive Politikoptimierung integriert. Critique-GRPO ermöglicht es LLMs, gleichzeitig aus initialen Antworten und kritikgeleiteten Verfeinerungen zu lernen, während die Exploration aufrechterhalten wird. Umfangreiche Experimente mit Qwen2.5-7B-Base und Qwen3-8B-Base zeigen, dass Critique-GRPO durchweg überwachte Lern- und RL-basierte Feinabstimmungsansätze in acht anspruchsvollen mathematischen, MINT- und allgemeinen Denkaufgaben übertrifft und die durchschnittlichen pass@1-Werte um etwa 4,5 % bzw. 5 % verbessert. Bemerkenswerterweise übertrifft Critique-GRPO eine starke Baseline, die Experten-Demonstrationen innerhalb des Online-RL integriert. Eine weitere Analyse offenbart zwei kritische Erkenntnisse über die Politikexploration: (1) höhere Entropie garantiert nicht immer effizientes Lernen durch Exploration, und (2) längere Antworten führen nicht zwangsläufig zu effektiverer Exploration.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.