DeepCritic: Crítica Deliberada con Modelos de Lenguaje a Gran Escala
DeepCritic: Deliberate Critique with Large Language Models
May 1, 2025
Autores: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
cs.AI
Resumen
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) evolucionan rápidamente, proporcionar retroalimentación precisa y supervisión escalable sobre sus resultados se convierte en un problema urgente y crítico. Utilizar LLMs como modelos de crítica para lograr supervisión automatizada es una solución prometedora. En este trabajo, nos enfocamos en estudiar y mejorar la capacidad de crítica matemática de los LLMs. Los críticos actuales basados en LLMs ofrecen críticas demasiado superficiales en cada paso, lo que resulta en una baja precisión de juicio y dificulta proporcionar suficiente retroalimentación para que el generador de LLMs corrija errores. Para abordar este problema, proponemos un marco novedoso y efectivo de dos etapas para desarrollar críticos de LLMs capaces de realizar críticas deliberadas en cada paso del razonamiento de soluciones matemáticas. En la primera etapa, utilizamos Qwen2.5-72B-Instruct para generar 4.5K críticas de formato largo como datos iniciales para el ajuste fino supervisado. Cada crítica inicial consiste en críticas paso a paso deliberadas que incluyen verificaciones desde múltiples perspectivas, así como críticas profundas de las críticas iniciales para cada paso de razonamiento. Luego, realizamos aprendizaje por refuerzo en el modelo ajustado utilizando datos etiquetados por humanos de PRM800K o nuestros datos anotados automáticamente obtenidos mediante estimación de corrección basada en muestreo de Monte Carlo, para incentivar aún más su capacidad de crítica. Nuestro modelo de crítica desarrollado sobre Qwen2.5-7B-Instruct no solo supera significativamente a los críticos de LLMs existentes (incluyendo modelos del mismo tamaño como DeepSeek-R1-distill y GPT-4o) en varios benchmarks de identificación de errores, sino que también ayuda de manera más efectiva al generador de LLMs a refinar pasos erróneos a través de retroalimentación más detallada.
English
As Large Language Models (LLMs) are rapidly evolving, providing accurate
feedback and scalable oversight on their outputs becomes an urgent and critical
problem. Leveraging LLMs as critique models to achieve automated supervision is
a promising solution. In this work, we focus on studying and enhancing the math
critique ability of LLMs. Current LLM critics provide critiques that are too
shallow and superficial on each step, leading to low judgment accuracy and
struggling to offer sufficient feedback for the LLM generator to correct
mistakes. To tackle this issue, we propose a novel and effective two-stage
framework to develop LLM critics that are capable of deliberately critiquing on
each reasoning step of math solutions. In the first stage, we utilize
Qwen2.5-72B-Instruct to generate 4.5K long-form critiques as seed data for
supervised fine-tuning. Each seed critique consists of deliberate step-wise
critiques that includes multi-perspective verifications as well as in-depth
critiques of initial critiques for each reasoning step. Then, we perform
reinforcement learning on the fine-tuned model with either existing
human-labeled data from PRM800K or our automatically annotated data obtained
via Monte Carlo sampling-based correctness estimation, to further incentivize
its critique ability. Our developed critique model built on Qwen2.5-7B-Instruct
not only significantly outperforms existing LLM critics (including the
same-sized DeepSeek-R1-distill models and GPT-4o) on various error
identification benchmarks, but also more effectively helps the LLM generator
refine erroneous steps through more detailed feedback.Summary
AI-Generated Summary