Critique-GRPO: Migliorare il Ragionamento dei Modelli Linguistici con Feedback in Linguaggio Naturale e Numerico
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Autori: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Abstract
I recenti progressi nell'apprendimento per rinforzo (RL) con feedback numerico, come ricompense scalari, hanno significativamente migliorato le capacità di ragionamento complesso dei grandi modelli linguistici (LLM). Nonostante questo successo, abbiamo identificato tre sfide chiave incontrate dall'RL con feedback esclusivamente numerico: plateau di prestazione, efficacia limitata dell'autoriflessione e fallimenti persistenti. Dimostriamo quindi che i modelli ottimizzati con RL, anche dopo aver raggiunto plateau di prestazione, possono generare correzioni accurate su problemi con fallimenti persistenti sfruttando feedback in linguaggio naturale sotto forma di critiche. Basandoci su questa intuizione, proponiamo Critique-GRPO, un framework RL online che integra sia feedback in linguaggio naturale che numerico per un'ottimizzazione efficace delle politiche. Critique-GRPO consente agli LLM di apprendere dalle risposte iniziali e dalle correzioni guidate dalle critiche in modo simultaneo, mantenendo l'esplorazione. Esperimenti estesi utilizzando Qwen2.5-7B-Base e Qwen3-8B-Base mostrano che Critique-GRPO supera costantemente approcci di fine-tuning basati su apprendimento supervisionato e RL in otto impegnativi compiti di ragionamento matematico, STEM e generale, migliorando i punteggi medi pass@1 di circa il 4,5% e il 5%, rispettivamente. In particolare, Critique-GRPO supera una solida baseline che incorpora dimostrazioni esperte all'interno dell'RL online. Un'ulteriore analisi rivela due intuizioni critiche sull'esplorazione delle politiche: (1) un'entropia più elevata non garantisce sempre un apprendimento efficiente dall'esplorazione, e (2) risposte più lunghe non portano necessariamente a un'esplorazione più efficace.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.