RefCritic: Het trainen van lange keten-van-gedachten criticusmodellen met verfijningsfeedback
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
July 20, 2025
Auteurs: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI
Samenvatting
Met de snelle vooruitgang van Large Language Models (LLMs) is het ontwikkelen van effectieve critic-modules voor precieze begeleiding cruciaal maar uitdagend geworden. In dit artikel tonen we eerst aan dat supervised fine-tuning voor het bouwen van critic-modules (wat veel wordt gebruikt in huidige oplossingen) niet echt de kritische vaardigheden van modellen verbetert, wat resulteert in oppervlakkige kritieken met onvoldoende reflectie en verificatie. Om de ongekende kritische capaciteiten te ontsluiten, stellen we RefCritic voor, een long-chain-of-thought critic-module gebaseerd op reinforcement learning met dubbele regelgebaseerde beloningen: (1) de correctheid van oplossingsbeoordelingen op instantieniveau en (2) de verfijningsnauwkeurigheden van het beleidsmodel op basis van kritieken, met als doel hoogwaardige evaluaties te genereren met bruikbare feedback die effectief modelverfijning begeleidt. We evalueren RefCritic op Qwen2.5-14B-Instruct en DeepSeek-R1-Distill-Qwen-14B over vijf benchmarks. In kritiek- en verfijningsinstellingen toont RefCritic consistente voordelen over alle benchmarks, bijvoorbeeld 6,8\% en 7,2\% winst op AIME25 voor de respectieve basismodellen. Opmerkelijk is dat onder meerderheidsstemming beleidsmodellen die door RefCritic zijn gefilterd, superieure schaalbaarheid vertonen bij een toename van het aantal stemmen. Bovendien presteert RefCritic, ondanks training op oplossingsniveau, beter dan stapgewijs supervised benaderingen op ProcessBench, een benchmark om foutieve stappen in wiskundige redenering te identificeren.
English
With the rapid advancement of Large Language Models (LLMs), developing
effective critic modules for precise guidance has become crucial yet
challenging. In this paper, we initially demonstrate that supervised
fine-tuning for building critic modules (which is widely adopted in current
solutions) fails to genuinely enhance models' critique abilities, producing
superficial critiques with insufficient reflections and verifications. To
unlock the unprecedented critique capabilities, we propose RefCritic, a
long-chain-of-thought critic module based on reinforcement learning with dual
rule-based rewards: (1) instance-level correctness of solution judgments and
(2) refinement accuracies of the policy model based on critiques, aiming to
generate high-quality evaluations with actionable feedback that effectively
guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and
DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement
settings, RefCritic demonstrates consistent advantages across all benchmarks,
e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably,
under majority voting, policy models filtered by RefCritic show superior
scaling with increased voting numbers. Moreover, despite training on
solution-level supervision, RefCritic outperforms step-level supervised
approaches on ProcessBench, a benchmark to identify erroneous steps in
mathematical reasoning.