ChatPaper.aiChatPaper

DeepCritic : Critique délibérée avec des modèles de langage à grande échelle

DeepCritic: Deliberate Critique with Large Language Models

May 1, 2025
Auteurs: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI

Résumé

Alors que les modèles de langage de grande taille (LLMs) évoluent rapidement, fournir un retour d'information précis et une supervision scalable sur leurs sorties devient un problème urgent et critique. L'utilisation des LLMs comme modèles de critique pour parvenir à une supervision automatisée est une solution prometteuse. Dans ce travail, nous nous concentrons sur l'étude et l'amélioration de la capacité de critique mathématique des LLMs. Les critiques actuels des LLMs fournissent des évaluations trop superficielles pour chaque étape, ce qui entraîne une faible précision de jugement et des difficultés à offrir un retour suffisant pour que le générateur LLM corrige les erreurs. Pour résoudre ce problème, nous proposons un cadre novateur et efficace en deux étapes pour développer des critiques LLM capables d'évaluer de manière réfléchie chaque étape de raisonnement des solutions mathématiques. Dans la première étape, nous utilisons Qwen2.5-72B-Instruct pour générer 4,5K critiques détaillées comme données de base pour un ajustement supervisé. Chaque critique de base comprend des évaluations réfléchies étape par étape, incluant des vérifications multi-perspectives ainsi que des critiques approfondies des évaluations initiales pour chaque étape de raisonnement. Ensuite, nous effectuons un apprentissage par renforcement sur le modèle ajusté, soit avec des données existantes étiquetées par des humains provenant de PRM800K, soit avec nos données annotées automatiquement obtenues via une estimation de la justesse basée sur l'échantillonnage de Monte Carlo, afin de renforcer davantage sa capacité de critique. Notre modèle de critique développé sur Qwen2.5-7B-Instruct surpasse non seulement de manière significative les critiques LLM existants (y compris les modèles DeepSeek-R1-distill de même taille et GPT-4o) sur divers benchmarks d'identification d'erreurs, mais aide également plus efficacement le générateur LLM à affiner les étapes erronées grâce à un retour plus détaillé.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.

Summary

AI-Generated Summary

PDF447May 4, 2025