DeepCritic: Critica Deliberata con Modelli Linguistici di Grandi Dimensioni
DeepCritic: Deliberate Critique with Large Language Models
May 1, 2025
Autori: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI
Abstract
Man mano che i Large Language Model (LLM) si evolvono rapidamente, fornire feedback accurati e supervisione scalabile sui loro output diventa un problema urgente e critico. Sfruttare gli LLM come modelli di critica per ottenere supervisione automatizzata è una soluzione promettente. In questo lavoro, ci concentriamo sullo studio e sul potenziamento della capacità di critica matematica degli LLM. Gli attuali critici basati su LLM forniscono critiche troppo superficiali su ciascun passaggio, portando a una bassa accuratezza di giudizio e difficoltà nell'offrire feedback sufficienti affinché il generatore LLM corregga gli errori. Per affrontare questo problema, proponiamo un framework innovativo ed efficace in due fasi per sviluppare critici LLM in grado di esaminare deliberatamente ogni passaggio del ragionamento nelle soluzioni matematiche. Nella prima fase, utilizziamo Qwen2.5-72B-Instruct per generare 4.5K critiche in formato esteso come dati di partenza per il fine-tuning supervisionato. Ogni critica iniziale è composta da valutazioni dettagliate passo-passo che includono verifiche multi-prospettiche e critiche approfondite delle valutazioni iniziali per ogni passaggio del ragionamento. Successivamente, applichiamo l'apprendimento per rinforzo sul modello fine-tuned, utilizzando sia dati etichettati manualmente da PRM800K sia i nostri dati annotati automaticamente ottenuti tramite stime di correttezza basate sul campionamento Monte Carlo, per incentivare ulteriormente la sua capacità di critica. Il nostro modello di critica sviluppato su Qwen2.5-7B-Instruct non solo supera significativamente gli attuali critici LLM (inclusi i modelli DeepSeek-R1-distill di dimensioni simili e GPT-4o) su vari benchmark di identificazione degli errori, ma aiuta anche in modo più efficace il generatore LLM a perfezionare i passaggi errati attraverso feedback più dettagliati.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate
feedback and scalable oversight on their outputs becomes an urgent and critical
problem. Leveraging LLMs as critique models to achieve automated supervision is
a promising solution. In this work, we focus on studying and enhancing the math
critique ability of LLMs. Current LLM critics provide critiques that are too
shallow and superficial on each step, leading to low judgment accuracy and
struggling to offer sufficient feedback for the LLM generator to correct
mistakes. To tackle this issue, we propose a novel and effective two-stage
framework to develop LLM critics that are capable of deliberately critiquing on
each reasoning step of math solutions. In the first stage, we utilize
Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for
supervised fine-tuning. Each seed critique consists of deliberate step-wise
critiques that includes multi-perspective verifications as well as in-depth
critiques of initial critiques for each reasoning step. Then, we perform
reinforcement learning on the fine-tuned model with either existing
human-labeled data from PRM800K or our automatically annotated data obtained
via Monte Carlo sampling-based correctness estimation, to further incentivize
its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct
not only significantly outperforms existing LLM critics (including the
same-sized DeepSeek-R1-distill models and GPT-4o) on various error
identification benchmarks, but also more effectively helps the LLM generator
refine erroneous steps through more detailed feedback.