ChatPaper.aiChatPaper

DeepCritic: Осознанная критика с использованием больших языковых моделей

DeepCritic: Deliberate Critique with Large Language Models

May 1, 2025
Авторы: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI

Аннотация

По мере стремительного развития крупных языковых моделей (LLM) предоставление точной обратной связи и масштабируемого контроля за их выводами становится актуальной и критически важной задачей. Использование LLM в качестве моделей-критиков для достижения автоматизированного надзора является перспективным решением. В данной работе мы сосредоточены на изучении и улучшении способности LLM к математической критике. Современные LLM-критики предоставляют слишком поверхностные и неглубокие замечания на каждом шаге, что приводит к низкой точности суждений и затрудняет предоставление достаточной обратной связи для исправления ошибок генератором LLM. Для решения этой проблемы мы предлагаем новую и эффективную двухэтапную структуру для разработки LLM-критиков, способных тщательно анализировать каждый шаг математических решений. На первом этапе мы используем модель Qwen2.5-72B-Instruct для генерации 4,5 тысяч развернутых критических замечаний в качестве исходных данных для контролируемого тонкого обучения. Каждое исходное замечание включает в себя детальный пошаговый анализ, который охватывает многоплановую проверку, а также углубленную критику первоначальных замечаний для каждого шага рассуждения. Затем мы применяем обучение с подкреплением на тонко настроенной модели, используя либо существующие данные, размеченные человеком из набора PRM800K, либо наши автоматически аннотированные данные, полученные с помощью оценки корректности на основе метода Монте-Карло, чтобы дополнительно стимулировать её критическую способность. Разработанная нами модель-критик, основанная на Qwen2.5-7B-Instruct, не только значительно превосходит существующие LLM-критики (включая модели того же размера DeepSeek-R1-distill и GPT-4o) на различных тестах по выявлению ошибок, но и более эффективно помогает генератору LLM исправлять ошибочные шаги благодаря более детальной обратной связи.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.
PDF548May 4, 2025