DeepCritic: Осознанная критика с использованием больших языковых моделейDeepCritic: Deliberate Critique with Large Language Models
По мере стремительного развития крупных языковых моделей (LLM) предоставление точной обратной связи и масштабируемого контроля за их выводами становится актуальной и критически важной задачей. Использование LLM в качестве моделей-критиков для достижения автоматизированного надзора является перспективным решением. В данной работе мы сосредоточены на изучении и улучшении способности LLM к математической критике. Современные LLM-критики предоставляют слишком поверхностные и неглубокие замечания на каждом шаге, что приводит к низкой точности суждений и затрудняет предоставление достаточной обратной связи для исправления ошибок генератором LLM. Для решения этой проблемы мы предлагаем новую и эффективную двухэтапную структуру для разработки LLM-критиков, способных тщательно анализировать каждый шаг математических решений. На первом этапе мы используем модель Qwen2.5-72B-Instruct для генерации 4,5 тысяч развернутых критических замечаний в качестве исходных данных для контролируемого тонкого обучения. Каждое исходное замечание включает в себя детальный пошаговый анализ, который охватывает многоплановую проверку, а также углубленную критику первоначальных замечаний для каждого шага рассуждения. Затем мы применяем обучение с подкреплением на тонко настроенной модели, используя либо существующие данные, размеченные человеком из набора PRM800K, либо наши автоматически аннотированные данные, полученные с помощью оценки корректности на основе метода Монте-Карло, чтобы дополнительно стимулировать её критическую способность. Разработанная нами модель-критик, основанная на Qwen2.5-7B-Instruct, не только значительно превосходит существующие LLM-критики (включая модели того же размера DeepSeek-R1-distill и GPT-4o) на различных тестах по выявлению ошибок, но и более эффективно помогает генератору LLM исправлять ошибочные шаги благодаря более детальной обратной связи.