ChatPaper.aiChatPaper

RefCritic : Entraînement de modèles critiques à longues chaînes de raisonnement avec feedback de raffinement

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
papers.authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

papers.abstract

Avec l'avancée rapide des modèles de langage à grande échelle (LLMs), le développement de modules critiques efficaces pour un guidage précis est devenu crucial mais également complexe. Dans cet article, nous démontrons d'abord que le fine-tuning supervisé pour construire des modules critiques (largement adopté dans les solutions actuelles) échoue à véritablement améliorer les capacités de critique des modèles, produisant des évaluations superficielles avec des réflexions et vérifications insuffisantes. Pour débloquer des capacités de critique sans précédent, nous proposons RefCritic, un module critique basé sur une chaîne de pensée étendue et sur l'apprentissage par renforcement avec des récompenses duales basées sur des règles : (1) la justesse au niveau des instances dans les jugements de solutions et (2) les précisions de raffinement du modèle de politique basées sur les critiques, visant à générer des évaluations de haute qualité avec des retours actionnables qui guident efficacement le raffinement du modèle. Nous évaluons RefCritic sur Qwen2.5-14B-Instruct et DeepSeek-R1-Distill-Qwen-14B à travers cinq benchmarks. Dans les configurations de critique et de raffinement, RefCritic démontre des avantages constants sur tous les benchmarks, par exemple, des gains de 6,8 % et 7,2 % sur AIME25 pour les modèles de base respectifs. Notamment, sous un vote majoritaire, les modèles de politique filtrés par RefCritic montrent une meilleure scalabilité avec l'augmentation du nombre de votes. De plus, malgré un entraînement sur une supervision au niveau des solutions, RefCritic surpasse les approches supervisées au niveau des étapes sur ProcessBench, un benchmark conçu pour identifier les étapes erronées dans le raisonnement mathématique.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF121July 23, 2025