DeepCritic: Doordachte Kritiek met Grote Taalmodellen
DeepCritic: Deliberate Critique with Large Language Models
May 1, 2025
Auteurs: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI
Samenvatting
Naarmate Large Language Models (LLMs) zich snel ontwikkelen, wordt het geven van nauwkeurige feedback en schaalbare controle op hun uitvoer een urgent en kritisch probleem. Het inzetten van LLMs als kritiekmodellen om geautomatiseerd toezicht te bereiken, is een veelbelovende oplossing. In dit werk richten we ons op het bestuderen en verbeteren van de wiskundige kritiekvaardigheid van LLMs. Huidige LLM-critici leveren kritiek die te oppervlakkig is voor elke stap, wat leidt tot een lage beoordelingsnauwkeurigheid en moeite om voldoende feedback te geven voor de LLM-generator om fouten te corrigeren. Om dit probleem aan te pakken, stellen we een nieuw en effectief tweestappenframework voor om LLM-critici te ontwikkelen die in staat zijn om bewust kritiek te leveren op elke redeneerstap van wiskundige oplossingen. In de eerste fase gebruiken we Qwen2.5-72B-Instruct om 4.5K uitgebreide kritieken te genereren als startgegevens voor supervised fine-tuning. Elke startkritiek bestaat uit bewuste stap-voor-stap kritieken die multi-perspectief verificaties omvatten, evenals diepgaande kritieken van initiële kritieken voor elke redeneerstap. Vervolgens voeren we reinforcement learning uit op het fijn afgestemde model met bestaande door mensen gelabelde gegevens van PRM800K of onze automatisch geannoteerde gegevens verkregen via Monte Carlo sampling-gebaseerde correctheidsschatting, om de kritiekvaardigheid verder te stimuleren. Ons ontwikkelde kritiekmodel, gebouwd op Qwen2.5-7B-Instruct, presteert niet alleen aanzienlijk beter dan bestaande LLM-critici (inclusief dezelfde grootte DeepSeek-R1-distill modellen en GPT-4o) op verschillende foutidentificatiebenchmarks, maar helpt ook effectiever de LLM-generator om foutieve stappen te verfijnen door meer gedetailleerde feedback.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate
feedback and scalable oversight on their outputs becomes an urgent and critical
problem. Leveraging LLMs as critique models to achieve automated supervision is
a promising solution. In this work, we focus on studying and enhancing the math
critique ability of LLMs. Current LLM critics provide critiques that are too
shallow and superficial on each step, leading to low judgment accuracy and
struggling to offer sufficient feedback for the LLM generator to correct
mistakes. To tackle this issue, we propose a novel and effective two-stage
framework to develop LLM critics that are capable of deliberately critiquing on
each reasoning step of math solutions. In the first stage, we utilize
Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for
supervised fine-tuning. Each seed critique consists of deliberate step-wise
critiques that includes multi-perspective verifications as well as in-depth
critiques of initial critiques for each reasoning step. Then, we perform
reinforcement learning on the fine-tuned model with either existing
human-labeled data from PRM800K or our automatically annotated data obtained
via Monte Carlo sampling-based correctness estimation, to further incentivize
its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct
not only significantly outperforms existing LLM critics (including the
same-sized DeepSeek-R1-distill models and GPT-4o) on various error
identification benchmarks, but also more effectively helps the LLM generator
refine erroneous steps through more detailed feedback.