Critique-GRPO : Amélioration du raisonnement des LLM grâce à des retours en langage naturel et numériques
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Auteurs: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Résumé
Les récents progrès en apprentissage par renforcement (RL) avec retour d'information numérique, tels que les récompenses scalaires, ont considérablement amélioré les capacités de raisonnement complexe des grands modèles de langage (LLMs). Malgré ces succès, nous identifions trois défis majeurs rencontrés par le RL avec un retour d'information uniquement numérique : les plateaux de performance, l'efficacité limitée de l'auto-réflexion et les échecs persistants. Nous démontrons ensuite que les modèles affinés par RL, même après avoir atteint des plateaux de performance, peuvent générer des raffinements corrects sur des problèmes d'échecs persistants en exploitant un retour d'information en langage naturel sous forme de critiques. Sur la base de cette observation, nous proposons Critique-GRPO, un cadre de RL en ligne qui intègre à la fois un retour d'information en langage naturel et numérique pour une optimisation efficace des politiques. Critique-GRPO permet aux LLMs d'apprendre à partir des réponses initiales et des raffinements guidés par les critiques tout en maintenant l'exploration. Des expériences approfondies utilisant Qwen2.5-7B-Base et Qwen3-8B-Base montrent que Critique-GRPO surpasse systématiquement les approches de fine-tuning basées sur l'apprentissage supervisé et sur le RL dans huit tâches complexes de raisonnement mathématique, STEM et général, améliorant les scores moyens pass@1 d'environ 4,5 % et 5 %, respectivement. Notamment, Critique-GRPO dépasse une base de référence solide qui intègre des démonstrations expertes dans le cadre du RL en ligne. Une analyse plus approfondie révèle deux insights critiques concernant l'exploration des politiques : (1) une entropie plus élevée ne garantit pas toujours un apprentissage efficace à partir de l'exploration, et (2) des réponses plus longues ne conduisent pas nécessairement à une exploration plus efficace.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.