DeepCritic : Critique délibérée avec des modÚles de langage à grande échelleDeepCritic: Deliberate Critique with Large Language Models
Alors que les modĂšles de langage de grande taille (LLMs) Ă©voluent rapidement, fournir un retour d'information prĂ©cis et une supervision scalable sur leurs sorties devient un problĂšme urgent et critique. L'utilisation des LLMs comme modĂšles de critique pour parvenir Ă une supervision automatisĂ©e est une solution prometteuse. Dans ce travail, nous nous concentrons sur l'Ă©tude et l'amĂ©lioration de la capacitĂ© de critique mathĂ©matique des LLMs. Les critiques actuels des LLMs fournissent des Ă©valuations trop superficielles pour chaque Ă©tape, ce qui entraĂźne une faible prĂ©cision de jugement et des difficultĂ©s Ă offrir un retour suffisant pour que le gĂ©nĂ©rateur LLM corrige les erreurs. Pour rĂ©soudre ce problĂšme, nous proposons un cadre novateur et efficace en deux Ă©tapes pour dĂ©velopper des critiques LLM capables d'Ă©valuer de maniĂšre rĂ©flĂ©chie chaque Ă©tape de raisonnement des solutions mathĂ©matiques. Dans la premiĂšre Ă©tape, nous utilisons Qwen2.5-72B-Instruct pour gĂ©nĂ©rer 4,5K critiques dĂ©taillĂ©es comme donnĂ©es de base pour un ajustement supervisĂ©. Chaque critique de base comprend des Ă©valuations rĂ©flĂ©chies Ă©tape par Ă©tape, incluant des vĂ©rifications multi-perspectives ainsi que des critiques approfondies des Ă©valuations initiales pour chaque Ă©tape de raisonnement. Ensuite, nous effectuons un apprentissage par renforcement sur le modĂšle ajustĂ©, soit avec des donnĂ©es existantes Ă©tiquetĂ©es par des humains provenant de PRM800K, soit avec nos donnĂ©es annotĂ©es automatiquement obtenues via une estimation de la justesse basĂ©e sur l'Ă©chantillonnage de Monte Carlo, afin de renforcer davantage sa capacitĂ© de critique. Notre modĂšle de critique dĂ©veloppĂ© sur Qwen2.5-7B-Instruct surpasse non seulement de maniĂšre significative les critiques LLM existants (y compris les modĂšles DeepSeek-R1-distill de mĂȘme taille et GPT-4o) sur divers benchmarks d'identification d'erreurs, mais aide Ă©galement plus efficacement le gĂ©nĂ©rateur LLM Ă affiner les Ă©tapes erronĂ©es grĂące Ă un retour plus dĂ©taillĂ©.