ChatPaper.aiChatPaper

RefCritic: Treinando Modelos Críticos de Cadeia de Pensamento Longa com Feedback de Refinamento

RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 20, 2025
Autores: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI

Resumo

Com o rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs), o desenvolvimento de módulos críticos eficazes para orientação precisa tornou-se crucial, porém desafiador. Neste artigo, inicialmente demonstramos que o ajuste fino supervisionado para a construção de módulos críticos (amplamente adotado nas soluções atuais) falha em melhorar genuinamente as habilidades de crítica dos modelos, produzindo críticas superficiais com reflexões e verificações insuficientes. Para desbloquear capacidades de crítica sem precedentes, propomos o RefCritic, um módulo crítico de cadeia longa de pensamento baseado em aprendizado por reforço com recompensas duplas baseadas em regras: (1) correção em nível de instância dos julgamentos de solução e (2) precisões de refinamento do modelo de política com base nas críticas, visando gerar avaliações de alta qualidade com feedback acionável que oriente efetivamente o refinamento do modelo. Avaliamos o RefCritic nos modelos Qwen2.5-14B-Instruct e DeepSeek-R1-Distill-Qwen-14B em cinco benchmarks. Nas configurações de crítica e refinamento, o RefCritic demonstra vantagens consistentes em todos os benchmarks, por exemplo, ganhos de 6,8% e 7,2% no AIME25 para os respectivos modelos base. Notavelmente, sob votação majoritária, os modelos de política filtrados pelo RefCritic mostram uma escalabilidade superior com o aumento do número de votos. Além disso, apesar de ser treinado com supervisão em nível de solução, o RefCritic supera abordagens supervisionadas em nível de etapa no ProcessBench, um benchmark projetado para identificar etapas errôneas no raciocínio matemático.
English
With the rapid advancement of Large Language Models (LLMs), developing effective critic modules for precise guidance has become crucial yet challenging. In this paper, we initially demonstrate that supervised fine-tuning for building critic modules (which is widely adopted in current solutions) fails to genuinely enhance models' critique abilities, producing superficial critiques with insufficient reflections and verifications. To unlock the unprecedented critique capabilities, we propose RefCritic, a long-chain-of-thought critic module based on reinforcement learning with dual rule-based rewards: (1) instance-level correctness of solution judgments and (2) refinement accuracies of the policy model based on critiques, aiming to generate high-quality evaluations with actionable feedback that effectively guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement settings, RefCritic demonstrates consistent advantages across all benchmarks, e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably, under majority voting, policy models filtered by RefCritic show superior scaling with increased voting numbers. Moreover, despite training on solution-level supervision, RefCritic outperforms step-level supervised approaches on ProcessBench, a benchmark to identify erroneous steps in mathematical reasoning.
PDF131July 23, 2025