DeepCritic:基於大型語言模型的深思熟慮批判DeepCritic: Deliberate Critique with Large Language Models
隨著大型語言模型(LLMs)的迅速發展,如何對其輸出提供精確反饋並實現可擴展的監督,已成為一項迫切且關鍵的挑戰。利用LLMs作為評判模型以實現自動化監督,是一種頗具前景的解決方案。本研究聚焦於探討並提升LLMs在數學評判方面的能力。現有的LLM評判模型對每一步推理的評判過於淺顯,導致判斷準確率低下,且難以為LLM生成器提供足夠的反饋來修正錯誤。為解決這一問題,我們提出了一種新穎且高效的兩階段框架,旨在開發能夠對數學解答的每一步推理進行深思熟慮評判的LLM評判模型。在第一階段,我們利用Qwen2.5-72B-Instruct生成了4.5K條長篇評判作為監督微調的種子數據。每條種子評判包含針對每一步推理的多角度驗證以及對初始評判的深入評判。隨後,我們對微調後的模型進行強化學習,使用PRM800K中現有的人工標註數據或通過基於蒙特卡羅採樣的正確性估計自動獲得的註釋數據,進一步激勵其評判能力。基於Qwen2.5-7B-Instruct開發的評判模型,不僅在多種錯誤識別基準測試中顯著優於現有的LLM評判模型(包括同規模的DeepSeek-R1-distill模型和GPT-4o),而且通過更為詳盡的反饋,更有效地幫助LLM生成器修正錯誤步驟。