DeepCritic: Doordachte Kritiek met Grote Taalmodellen

Samenvatting

Naarmate Large Language Models (LLMs) zich snel ontwikkelen, wordt het geven van nauwkeurige feedback en schaalbare controle op hun uitvoer een urgent en kritisch probleem. Het inzetten van LLMs als kritiekmodellen om geautomatiseerd toezicht te bereiken, is een veelbelovende oplossing. In dit werk richten we ons op het bestuderen en verbeteren van de wiskundige kritiekvaardigheid van LLMs. Huidige LLM-critici leveren kritiek die te oppervlakkig is voor elke stap, wat leidt tot een lage beoordelingsnauwkeurigheid en moeite om voldoende feedback te geven voor de LLM-generator om fouten te corrigeren. Om dit probleem aan te pakken, stellen we een nieuw en effectief tweestappenframework voor om LLM-critici te ontwikkelen die in staat zijn om bewust kritiek te leveren op elke redeneerstap van wiskundige oplossingen. In de eerste fase gebruiken we Qwen2.5-72B-Instruct om 4.5K uitgebreide kritieken te genereren als startgegevens voor supervised fine-tuning. Elke startkritiek bestaat uit bewuste stap-voor-stap kritieken die multi-perspectief verificaties omvatten, evenals diepgaande kritieken van initiële kritieken voor elke redeneerstap. Vervolgens voeren we reinforcement learning uit op het fijn afgestemde model met bestaande door mensen gelabelde gegevens van PRM800K of onze automatisch geannoteerde gegevens verkregen via Monte Carlo sampling-gebaseerde correctheidsschatting, om de kritiekvaardigheid verder te stimuleren. Ons ontwikkelde kritiekmodel, gebouwd op Qwen2.5-7B-Instruct, presteert niet alleen aanzienlijk beter dan bestaande LLM-critici (inclusief dezelfde grootte DeepSeek-R1-distill modellen en GPT-4o) op verschillende foutidentificatiebenchmarks, maar helpt ook effectiever de LLM-generator om foutieve stappen te verfijnen door meer gedetailleerde feedback.

English

As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.

DeepCritic: Doordachte Kritiek met Grote Taalmodellen

DeepCritic: Deliberate Critique with Large Language Models

Samenvatting

Support