RefCritic: Обучение моделей-критиков с длинными цепочками рассуждений с использованием обратной связи для уточнения
RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback
July 20, 2025
Авторы: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
cs.AI
Аннотация
С быстрым развитием крупных языковых моделей (LLM) разработка эффективных критических модулей для точного руководства стала крайне важной, но при этом сложной задачей. В данной статье мы сначала показываем, что контролируемая тонкая настройка для создания критических модулей (широко используемая в современных решениях) не способна по-настоящему улучшить способности моделей к критике, выдавая поверхностные оценки с недостаточным анализом и проверкой. Чтобы раскрыть беспрецедентные возможности критики, мы предлагаем RefCritic — критический модуль с длинной цепочкой рассуждений, основанный на обучении с подкреплением с двойными правилами награды: (1) корректность суждений на уровне отдельных примеров и (2) точность улучшений модели политики на основе критики, что позволяет генерировать высококачественные оценки с практическими рекомендациями, эффективно направляющими улучшение модели. Мы оцениваем RefCritic на моделях Qwen2.5-14B-Instruct и DeepSeek-R1-Distill-Qwen-14B на пяти бенчмарках. В условиях критики и улучшений RefCritic демонстрирует стабильные преимущества на всех бенчмарках, например, улучшение на 6,8\% и 7,2\% на AIME25 для соответствующих базовых моделей. Примечательно, что при мажоритарном голосовании модели политики, отфильтрованные с помощью RefCritic, показывают превосходное масштабирование с увеличением числа голосов. Более того, несмотря на обучение на уровне решений, RefCritic превосходит подходы с пошаговым контролем на бенчмарке ProcessBench, предназначенном для выявления ошибочных шагов в математических рассуждениях.
English
With the rapid advancement of Large Language Models (LLMs), developing
effective critic modules for precise guidance has become crucial yet
challenging. In this paper, we initially demonstrate that supervised
fine-tuning for building critic modules (which is widely adopted in current
solutions) fails to genuinely enhance models' critique abilities, producing
superficial critiques with insufficient reflections and verifications. To
unlock the unprecedented critique capabilities, we propose RefCritic, a
long-chain-of-thought critic module based on reinforcement learning with dual
rule-based rewards: (1) instance-level correctness of solution judgments and
(2) refinement accuracies of the policy model based on critiques, aiming to
generate high-quality evaluations with actionable feedback that effectively
guides model refinement. We evaluate RefCritic on Qwen2.5-14B-Instruct and
DeepSeek-R1-Distill-Qwen-14B across five benchmarks. On critique and refinement
settings, RefCritic demonstrates consistent advantages across all benchmarks,
e.g., 6.8\% and 7.2\% gains on AIME25 for the respective base models. Notably,
under majority voting, policy models filtered by RefCritic show superior
scaling with increased voting numbers. Moreover, despite training on
solution-level supervision, RefCritic outperforms step-level supervised
approaches on ProcessBench, a benchmark to identify erroneous steps in
mathematical reasoning.