ChatPaper.aiChatPaper

RefCritic: Training von langen Chain-of-Thought-Kritikermodellen mit Verfeinerungsfeedback

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
papers.authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

papers.abstract

Mit der rasanten Weiterentwicklung von Large Language Models (LLMs) ist die Entwicklung effektiver Kritikmodule für präzise Anleitung entscheidend, aber auch herausfordernd geworden. In diesem Artikel zeigen wir zunächst, dass das überwachte Feinabstimmen zur Erstellung von Kritikmodulen (das in aktuellen Lösungen weit verbreitet ist) die Kritikfähigkeiten der Modelle nicht wirklich verbessert, sondern oberflächliche Kritiken mit unzureichenden Reflexionen und Überprüfungen erzeugt. Um bisher unerreichte Kritikfähigkeiten freizusetzen, schlagen wir RefCritic vor, ein langkettiges Denk-Kritikmodul, das auf Verstärkungslernen mit dualen regelbasierten Belohnungen basiert: (1) Instanzgenauigkeit der Lösungsbeurteilungen und (2) Verfeinerungsgenauigkeiten des Politikmodells basierend auf Kritiken, mit dem Ziel, hochwertige Bewertungen mit umsetzbarem Feedback zu generieren, das die Modellverfeinerung effektiv leitet. Wir evaluieren RefCritic auf Qwen2.5-14B-Instruct und DeepSeek-R1-Distill-Qwen-14B über fünf Benchmarks. In den Kritik- und Verfeinerungseinstellungen zeigt RefCritic durchweg Vorteile über alle Benchmarks hinweg, z.B. 6,8\% und 7,2\% Gewinne auf AIME25 für die jeweiligen Basismodelle. Bemerkenswerterweise zeigen unter Mehrheitsabstimmung die von RefCritic gefilterten Politikmodelle eine überlegene Skalierung mit zunehmender Abstimmungszahl. Darüber hinaus übertrifft RefCritic, obwohl es auf Lösungsebene überwacht trainiert wurde, schrittweise überwachte Ansätze auf ProcessBench, einem Benchmark zur Identifizierung fehlerhafter Schritte im mathematischen Denken.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF121July 23, 2025