Critique-GRPO: Mejorando el razonamiento de modelos de lenguaje con retroalimentación en lenguaje natural y numérica
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
June 3, 2025
Autores: Xiaoying Zhang, Hao Sun, Yipeng Zhang, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng
cs.AI
Resumen
Los recientes avances en el aprendizaje por refuerzo (RL) con retroalimentación numérica, como recompensas escalares, han mejorado significativamente las capacidades de razonamiento complejo de los modelos de lenguaje grandes (LLMs). A pesar de este éxito, identificamos tres desafíos clave que enfrenta el RL con retroalimentación únicamente numérica: mesetas de rendimiento, efectividad limitada de la autorreflexión y fallos persistentes. Luego demostramos que los modelos ajustados con RL, incluso después de exhibir mesetas de rendimiento, pueden generar refinamientos correctos en problemas con fallos persistentes al aprovechar la retroalimentación en lenguaje natural en forma de críticas. Basándonos en esta idea, proponemos Critique-GRPO, un marco de RL en línea que integra tanto la retroalimentación en lenguaje natural como la numérica para una optimización efectiva de políticas. Critique-GRPO permite que los LLMs aprendan de respuestas iniciales y refinamientos guiados por críticas simultáneamente, manteniendo la exploración. Experimentos extensivos utilizando Qwen2.5-7B-Base y Qwen3-8B-Base muestran que Critique-GRPO supera consistentemente los enfoques de ajuste fino basados en aprendizaje supervisado y RL en ocho tareas desafiantes de matemáticas, STEM y razonamiento general, mejorando los puntajes promedio de pass@1 en aproximadamente 4.5% y 5%, respectivamente. Notablemente, Critique-GRPO supera una línea base sólida que incorpora demostraciones expertas dentro del RL en línea. Un análisis adicional revela dos insights críticos sobre la exploración de políticas: (1) una entropía más alta no siempre garantiza un aprendizaje eficiente a partir de la exploración, y (2) respuestas más largas no necesariamente conducen a una exploración más efectiva.
English
Recent advances in reinforcement learning (RL) with numerical feedback, such
as scalar rewards, have significantly enhanced the complex reasoning
capabilities of large language models (LLMs). Despite this success, we identify
three key challenges encountered by RL with solely numerical feedback:
performance plateaus, limited effectiveness of self-reflection, and persistent
failures. We then demonstrate that RL-finetuned models, even after exhibiting
performance plateaus, can generate correct refinements on persistently failed
problems by leveraging natural language feedback in the form of critiques.
Building on this insight, we propose Critique-GRPO, an online RL framework that
integrates both natural language and numerical feedback for effective policy
optimization. Critique-GRPO enables LLMs to learn from initial responses and
critique-guided refinements simultaneously while maintaining exploration.
Extensive experiments using Qwen2.5-7B-Base and Qwen3-8B-Base show that
Critique-GRPO consistently outperforms supervised learning-based and RL-based
fine-tuning approaches across eight challenging mathematical, STEM, and general
reasoning tasks, improving average pass@1 scores by approximately 4.5% and 5%,
respectively. Notably, Critique-GRPO surpasses a strong baseline that
incorporates expert demonstrations within online RL. Further analysis reveals
two critical insights about policy exploration: (1) higher entropy does not
always guarantee efficient learning from exploration, and (2) longer responses
do not necessarily lead to more effective exploration.