Critique-GRPO: Avançando o Raciocínio de LLMs com Feedback em Linguagem Natural e Numérico
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Autores: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Resumo
Avanços recentes no aprendizado por reforço (RL) com feedback numérico, como recompensas escalares, têm aprimorado significativamente as capacidades de raciocínio complexo de grandes modelos de linguagem (LLMs). Apesar desse sucesso, identificamos três desafios principais enfrentados pelo RL com feedback exclusivamente numérico: platôs de desempenho, eficácia limitada da autorreflexão e falhas persistentes. Em seguida, demonstramos que modelos ajustados por RL, mesmo após exibirem platôs de desempenho, podem gerar refinamentos corretos em problemas com falhas persistentes ao aproveitar feedback em linguagem natural na forma de críticas. Com base nessa percepção, propomos o Critique-GRPO, um framework de RL online que integra tanto feedback em linguagem natural quanto numérico para otimização eficaz de políticas. O Critique-GRPO permite que LLMs aprendam com respostas iniciais e refinamentos guiados por críticas simultaneamente, mantendo a exploração. Experimentos extensivos utilizando Qwen2.5-7B-Base e Qwen3-8B-Base mostram que o Critique-GRPO supera consistentemente abordagens de ajuste fino baseadas em aprendizado supervisionado e RL em oito tarefas desafiadoras de matemática, STEM e raciocínio geral, melhorando as pontuações médias pass@1 em aproximadamente 4,5% e 5%, respectivamente. Notavelmente, o Critique-GRPO supera uma linha de base forte que incorpora demonstrações de especialistas dentro do RL online. Análises adicionais revelam dois insights críticos sobre a exploração de políticas: (1) entropia mais alta nem sempre garante aprendizado eficiente por meio da exploração, e (2) respostas mais longas não necessariamente levam a uma exploração mais eficaz.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.