ChatPaper.aiChatPaper

RefCritic: Addestramento di Modelli Critici a Lunga Catena di Pensiero con Feedback di Affinamento

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
Autori: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

Abstract

Con il rapido avanzamento dei Modelli Linguistici di Grande Scala (LLM), lo sviluppo di moduli critici efficaci per una guida precisa è diventato cruciale ma al tempo stesso impegnativo. In questo articolo, dimostriamo inizialmente che il fine-tuning supervisionato per la costruzione di moduli critici (ampiamente adottato nelle soluzioni attuali) non riesce a migliorare genuinamente le capacità di critica dei modelli, producendo critiche superficiali con riflessioni e verifiche insufficienti. Per sbloccare capacità di critica senza precedenti, proponiamo RefCritic, un modulo critico a catena di pensiero estesa basato sull'apprendimento per rinforzo con ricompense duali basate su regole: (1) correttezza a livello di istanza nei giudizi delle soluzioni e (2) accuratezze di raffinamento del modello di policy basate sulle critiche, con l'obiettivo di generare valutazioni di alta qualità con feedback azionabili che guidino efficacemente il raffinamento del modello. Valutiamo RefCritic su Qwen2.5-14B-Instruct e DeepSeek-R1-Distill-Qwen-14B attraverso cinque benchmark. Nelle impostazioni di critica e raffinamento, RefCritic dimostra vantaggi consistenti su tutti i benchmark, ad esempio, guadagni del 6,8% e 7,2% su AIME25 per i rispettivi modelli di base. In particolare, con il voto a maggioranza, i modelli di policy filtrati da RefCritic mostrano una scalabilità superiore con l'aumento del numero di voti. Inoltre, nonostante l'addestramento su supervisione a livello di soluzione, RefCritic supera gli approcci supervisionati a livello di passaggio su ProcessBench, un benchmark per identificare passaggi errati nel ragionamento matematico.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF131July 23, 2025