ChatPaper.aiChatPaper

DeepCritic: Crítica Deliberada com Modelos de Linguagem de Grande Escala

DeepCritic: Deliberate Critique with Large Language Models

May 1, 2025
Autores: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) evoluem rapidamente, fornecer feedback preciso e supervisão escalável sobre suas saídas torna-se um problema urgente e crítico. Aproveitar LLMs como modelos de crítica para alcançar supervisão automatizada é uma solução promissora. Neste trabalho, nos concentramos em estudar e aprimorar a capacidade de crítica matemática dos LLMs. Atualmente, os críticos baseados em LLMs fornecem críticas muito superficiais em cada etapa, resultando em baixa precisão de julgamento e dificuldade para oferecer feedback suficiente para que o gerador LLM corrija erros. Para resolver esse problema, propomos uma estrutura inovadora e eficaz em duas etapas para desenvolver críticos LLMs capazes de deliberadamente criticar cada etapa de raciocínio em soluções matemáticas. Na primeira etapa, utilizamos o Qwen2.5-72B-Instruct para gerar 4,5 mil críticas de longo formato como dados iniciais para ajuste supervisionado. Cada crítica inicial consiste em críticas deliberadas passo a passo que incluem verificações de múltiplas perspectivas, bem como críticas aprofundadas das críticas iniciais para cada etapa de raciocínio. Em seguida, realizamos aprendizado por reforço no modelo ajustado, utilizando dados rotulados por humanos do PRM800K ou nossos dados anotados automaticamente obtidos por meio de estimativa de correção baseada em amostragem de Monte Carlo, para incentivar ainda mais sua capacidade de crítica. Nosso modelo de crítica desenvolvido com base no Qwen2.5-7B-Instruct não apenas supera significativamente os críticos LLMs existentes (incluindo modelos do mesmo tamanho, como o DeepSeek-R1-distill e o GPT-4o) em vários benchmarks de identificação de erros, mas também ajuda de forma mais eficaz o gerador LLM a refinar etapas errôneas por meio de feedback mais detalhado.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.
PDF548May 4, 2025