¿Pueden los modelos de lenguaje de gran escala detectar errores en cadenas de razonamiento extensas?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
February 26, 2025
Autores: Yancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Resumen
Recientemente, los modelos tipo o1 han captado una atención significativa, donde estos modelos generan largas secuencias de razonamiento en cadena (Chain-of-Thought, CoT) para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (Large Language Models, LLMs) existentes. En este artículo, para comprender las cualidades de estas largas CoTs y medir las capacidades de crítica de los LLMs existentes sobre estas largas CoTs, presentamos DeltaBench, que incluye las largas CoTs generadas por diferentes modelos tipo o1 (por ejemplo, QwQ, DeepSeek-R1) para diversas tareas de razonamiento (por ejemplo, matemáticas, código, razonamiento general), con el objetivo de medir la capacidad de detectar errores en el razonamiento de largas CoTs. Basándonos en DeltaBench, primero realizamos un análisis detallado de las largas CoTs generadas para descubrir la efectividad y eficiencia de los diferentes modelos tipo o1. Luego, llevamos a cabo evaluaciones exhaustivas de los modelos de recompensa de proceso (Process Reward Models, PRMs) y modelos críticos existentes para detectar los errores en cada proceso anotado, con el fin de investigar los límites y restricciones de los PRMs y modelos críticos actuales. Finalmente, esperamos que DeltaBench pueda guiar a los desarrolladores para comprender mejor las capacidades de razonamiento de largas CoTs de sus modelos.
English
Recently, o1-like models have drawn significant attention, where these models
produce the long Chain-of-Thought (CoT) reasoning steps to improve the
reasoning abilities of existing Large Language Models (LLMs). In this paper, to
understand the qualities of these long CoTs and measure the critique abilities
of existing LLMs on these long CoTs, we introduce the DeltaBench, including the
generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for
different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the
ability to detect errors in long CoT reasoning. Based on DeltaBench, we first
perform fine-grained analysis of the generated long CoTs to discover the
effectiveness and efficiency of different o1-like models. Then, we conduct
extensive evaluations of existing process reward models (PRMs) and critic
models to detect the errors of each annotated process, which aims to
investigate the boundaries and limitations of existing PRMs and critic models.
Finally, we hope that DeltaBench could guide developers to better understand
the long CoT reasoning abilities of their models.Summary
AI-Generated Summary