DeepCritic: Gezielte Kritik mit großen Sprachmodellen

papers.abstract

Da sich Large Language Models (LLMs) rasant weiterentwickeln, wird die Bereitstellung von präzisem Feedback und skalierbarer Überwachung ihrer Ausgaben zu einem dringenden und kritischen Problem. Die Nutzung von LLMs als Kritikmodelle zur Erzielung einer automatisierten Aufsicht stellt eine vielversprechende Lösung dar. In dieser Arbeit konzentrieren wir uns auf die Untersuchung und Verbesserung der mathematischen Kritikfähigkeit von LLMs. Aktuelle LLM-Kritiker liefern Kritiken, die zu oberflächlich und wenig tiefgehend für jeden Schritt sind, was zu einer geringen Urteilsgenauigkeit führt und es schwierig macht, ausreichend Feedback für den LLM-Generator zur Korrektur von Fehlern bereitzustellen. Um dieses Problem zu lösen, schlagen wir ein neuartiges und effektives zweistufiges Framework vor, um LLM-Kritiker zu entwickeln, die in der Lage sind, gezielt jeden Schritt mathematischer Lösungen zu kritisieren. In der ersten Stufe nutzen wir Qwen2.5-72B-Instruct, um 4.5K langformatige Kritiken als Ausgangsdaten für das überwachte Fein-Tuning zu generieren. Jede Ausgangskritik besteht aus gezielten schrittweisen Kritiken, die mehrperspektivische Überprüfungen sowie tiefgehende Kritiken der initialen Kritiken für jeden Lösungsweg beinhalten. Anschließend führen wir Reinforcement Learning auf dem feinabgestimmten Modell durch, entweder mit bestehenden, von Menschen annotierten Daten aus PRM800K oder unseren automatisch annotierten Daten, die durch Monte-Carlo-Sampling-basierte Korrektheitsschätzung gewonnen wurden, um dessen Kritikfähigkeit weiter zu fördern. Unser entwickeltes Kritikmodell, das auf Qwen2.5-7B-Instruct basiert, übertrifft nicht nur signifikant bestehende LLM-Kritiker (einschließlich der gleich großen DeepSeek-R1-distill-Modelle und GPT-4o) in verschiedenen Fehleridentifikations-Benchmarks, sondern hilft auch effektiver dem LLM-Generator, fehlerhafte Schritte durch detaillierteres Feedback zu verbessern.

English

As Large Language Models (LLMs) are rapidly evolving, providing accurate feedback and scalable oversight on their outputs becomes an urgent and critical problem. Leveraging LLMs as critique models to achieve automated supervision is a promising solution. In this work, we focus on studying and enhancing the math critique ability of LLMs. Current LLM critics provide critiques that are too shallow and superficial on each step, leading to low judgment accuracy and struggling to offer sufficient feedback for the LLM generator to correct mistakes. To tackle this issue, we propose a novel and effective two-stage framework to develop LLM critics that are capable of deliberately critiquing on each reasoning step of math solutions. In the first stage, we utilize Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for supervised fine-tuning. Each seed critique consists of deliberate step-wise critiques that includes multi-perspective verifications as well as in-depth critiques of initial critiques for each reasoning step. Then, we perform reinforcement learning on the fine-tuned model with either existing human-labeled data from PRM800K or our automatically annotated data obtained via Monte Carlo sampling-based correctness estimation, to further incentivize its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct not only significantly outperforms existing LLM critics (including the same-sized DeepSeek-R1-distill models and GPT-4o) on various error identification benchmarks, but also more effectively helps the LLM generator refine erroneous steps through more detailed feedback.

DeepCritic: Gezielte Kritik mit großen Sprachmodellen

DeepCritic: Deliberate Critique with Large Language Models

papers.abstract

Support