ChatPaper.aiChatPaper

RefCritic: Het trainen van lange keten-van-gedachten criticusmodellen met verfijningsfeedback

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
Auteurs: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

Samenvatting

Met de snelle vooruitgang van Large Language Models (LLMs) is het ontwikkelen van effectieve critic-modules voor precieze begeleiding cruciaal maar uitdagend geworden. In dit artikel tonen we eerst aan dat supervised fine-tuning voor het bouwen van critic-modules (wat veel wordt gebruikt in huidige oplossingen) niet echt de kritische vaardigheden van modellen verbetert, wat resulteert in oppervlakkige kritieken met onvoldoende reflectie en verificatie. Om de ongekende kritische capaciteiten te ontsluiten, stellen we RefCritic voor, een long-chain-of-thought critic-module gebaseerd op reinforcement learning met dubbele regelgebaseerde beloningen: (1) de correctheid van oplossingsbeoordelingen op instantieniveau en (2) de verfijningsnauwkeurigheden van het beleidsmodel op basis van kritieken, met als doel hoogwaardige evaluaties te genereren met bruikbare feedback die effectief modelverfijning begeleidt. We evalueren RefCritic op Qwen2.5-14B-Instruct en DeepSeek-R1-Distill-Qwen-14B over vijf benchmarks. In kritiek- en verfijningsinstellingen toont RefCritic consistente voordelen over alle benchmarks, bijvoorbeeld 6,8\% en 7,2\% winst op AIME25 voor de respectieve basismodellen. Opmerkelijk is dat onder meerderheidsstemming beleidsmodellen die door RefCritic zijn gefilterd, superieure schaalbaarheid vertonen bij een toename van het aantal stemmen. Bovendien presteert RefCritic, ondanks training op oplossingsniveau, beter dan stapgewijs supervised benaderingen op ProcessBench, een benchmark om foutieve stappen in wiskundige redenering te identificeren.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF141July 23, 2025