DeepCritic: Crítica Deliberada con Modelos de Lenguaje a Gran EscalaDeepCritic: Deliberate Critique with Large Language Models
A medida que los Modelos de Lenguaje de Gran Escala (LLMs) evolucionan rápidamente, proporcionar retroalimentación precisa y supervisión escalable sobre sus resultados se convierte en un problema urgente y crítico. Utilizar LLMs como modelos de crítica para lograr supervisión automatizada es una solución prometedora. En este trabajo, nos enfocamos en estudiar y mejorar la capacidad de crítica matemática de los LLMs. Los críticos actuales basados en LLMs ofrecen críticas demasiado superficiales en cada paso, lo que resulta en una baja precisión de juicio y dificulta proporcionar suficiente retroalimentación para que el generador de LLMs corrija errores. Para abordar este problema, proponemos un marco novedoso y efectivo de dos etapas para desarrollar críticos de LLMs capaces de realizar críticas deliberadas en cada paso del razonamiento de soluciones matemáticas. En la primera etapa, utilizamos Qwen2.5-72B-Instruct para generar 4.5K críticas de formato largo como datos iniciales para el ajuste fino supervisado. Cada crítica inicial consiste en críticas paso a paso deliberadas que incluyen verificaciones desde múltiples perspectivas, así como críticas profundas de las críticas iniciales para cada paso de razonamiento. Luego, realizamos aprendizaje por refuerzo en el modelo ajustado utilizando datos etiquetados por humanos de PRM800K o nuestros datos anotados automáticamente obtenidos mediante estimación de corrección basada en muestreo de Monte Carlo, para incentivar aún más su capacidad de crítica. Nuestro modelo de crítica desarrollado sobre Qwen2.5-7B-Instruct no solo supera significativamente a los críticos de LLMs existentes (incluyendo modelos del mismo tamaño como DeepSeek-R1-distill y GPT-4o) en varios benchmarks de identificación de errores, sino que también ayuda de manera más efectiva al generador de LLMs a refinar pasos erróneos a través de retroalimentación más detallada.