ChatPaper.aiChatPaper

RefCritic: Entrenamiento de Modelos Críticos de Cadena de Pensamiento Extensa con Retroalimentación de Refinamiento

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
Autores: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

Resumen

Con el rápido avance de los Modelos de Lenguaje a Gran Escala (LLMs), el desarrollo de módulos críticos efectivos para una guía precisa se ha vuelto crucial, aunque desafiante. En este artículo, inicialmente demostramos que el ajuste fino supervisado para construir módulos críticos (ampliamente adoptado en las soluciones actuales) no logra mejorar genuinamente las capacidades de crítica de los modelos, produciendo críticas superficiales con reflexiones y verificaciones insuficientes. Para desbloquear capacidades de crítica sin precedentes, proponemos RefCritic, un módulo crítico basado en cadenas largas de pensamiento que utiliza aprendizaje por refuerzo con recompensas duales basadas en reglas: (1) corrección a nivel de instancia en los juicios de solución y (2) precisiones de refinamiento del modelo de política basadas en críticas, con el objetivo de generar evaluaciones de alta calidad con retroalimentación accionable que guíe efectivamente el refinamiento del modelo. Evaluamos RefCritic en Qwen2.5-14B-Instruct y DeepSeek-R1-Distill-Qwen-14B a través de cinco benchmarks. En configuraciones de crítica y refinamiento, RefCritic demuestra ventajas consistentes en todos los benchmarks, por ejemplo, mejoras del 6.8\% y 7.2\% en AIME25 para los respectivos modelos base. Notablemente, bajo votación mayoritaria, los modelos de política filtrados por RefCritic muestran una escalabilidad superior con un aumento en el número de votos. Además, a pesar de entrenarse con supervisión a nivel de solución, RefCritic supera a los enfoques supervisados a nivel de paso en ProcessBench, un benchmark diseñado para identificar pasos erróneos en el razonamiento matemático.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF121July 23, 2025