ChatPaper.aiChatPaper

Consistencia Temporal para la Identificación de Errores en el Proceso de Razonamiento de Modelos de Lenguaje de Gran Escala

Temporal Consistency for LLM Reasoning Process Error Identification

March 18, 2025
Autores: Jiacheng Guo, Yue Wu, Jiahao Qiu, Kaixuan Huang, Xinzhe Juan, Ling Yang, Mengdi Wang
cs.AI

Resumen

La verificación es crucial para un razonamiento matemático efectivo. Presentamos un nuevo método de consistencia temporal en el que los verificadores refinan iterativamente sus juicios basándose en la evaluación previa. A diferencia de los enfoques de verificación en una sola ronda o de debate multi-modelo, nuestro método aprovecha la consistencia en una secuencia de acciones de autorreflexión para mejorar la precisión de la verificación. Las evaluaciones empíricas en diversos puntos de referencia para la identificación de errores en procesos matemáticos (Mathcheck, ProcessBench y PRM800K) muestran mejoras consistentes en el rendimiento respecto a los métodos base. Cuando se aplica a los modelos destilados recientes DeepSeek R1, nuestro método demuestra un rendimiento sólido, permitiendo que los modelos destilados de 7B/8B superen a todos los modelos de 70B/72B y a GPT-4o en ProcessBench. Cabe destacar que el modelo destilado de 14B con nuestro método alcanza un rendimiento comparable al de DeepSeek-R1. Nuestros códigos están disponibles en https://github.com/jcguo123/Temporal-Consistency.
English
Verification is crucial for effective mathematical reasoning. We present a new temporal consistency method where verifiers iteratively refine their judgments based on the previous assessment. Unlike one-round verification or multi-model debate approaches, our method leverages consistency in a sequence of self-reflection actions to improve verification accuracy. Empirical evaluations across diverse mathematical process error identification benchmarks (Mathcheck, ProcessBench, and PRM800K) show consistent performance improvements over baseline methods. When applied to the recent DeepSeek R1 distilled models, our method demonstrates strong performance, enabling 7B/8B distilled models to outperform all 70B/72B models and GPT-4o on ProcessBench. Notably, the distilled 14B model with our method achieves performance comparable to Deepseek-R1. Our codes are available at https://github.com/jcguo123/Temporal-Consistency

Summary

AI-Generated Summary

PDF92March 19, 2025