ChatPaper.aiChatPaper

¿Pueden los modelos de lenguaje de gran escala detectar errores en cadenas de razonamiento extensas?

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

February 26, 2025
Autores: Yancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI

Resumen

Recientemente, los modelos tipo o1 han captado una atención significativa, donde estos modelos generan largas secuencias de razonamiento en cadena (Chain-of-Thought, CoT) para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (Large Language Models, LLMs) existentes. En este artículo, para comprender las cualidades de estas largas CoTs y medir las capacidades de crítica de los LLMs existentes sobre estas largas CoTs, presentamos DeltaBench, que incluye las largas CoTs generadas por diferentes modelos tipo o1 (por ejemplo, QwQ, DeepSeek-R1) para diversas tareas de razonamiento (por ejemplo, matemáticas, código, razonamiento general), con el objetivo de medir la capacidad de detectar errores en el razonamiento de largas CoTs. Basándonos en DeltaBench, primero realizamos un análisis detallado de las largas CoTs generadas para descubrir la efectividad y eficiencia de los diferentes modelos tipo o1. Luego, llevamos a cabo evaluaciones exhaustivas de los modelos de recompensa de proceso (Process Reward Models, PRMs) y modelos críticos existentes para detectar los errores en cada proceso anotado, con el fin de investigar los límites y restricciones de los PRMs y modelos críticos actuales. Finalmente, esperamos que DeltaBench pueda guiar a los desarrolladores para comprender mejor las capacidades de razonamiento de largas CoTs de sus modelos.
English
Recently, o1-like models have drawn significant attention, where these models produce the long Chain-of-Thought (CoT) reasoning steps to improve the reasoning abilities of existing Large Language Models (LLMs). In this paper, to understand the qualities of these long CoTs and measure the critique abilities of existing LLMs on these long CoTs, we introduce the DeltaBench, including the generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the ability to detect errors in long CoT reasoning. Based on DeltaBench, we first perform fine-grained analysis of the generated long CoTs to discover the effectiveness and efficiency of different o1-like models. Then, we conduct extensive evaluations of existing process reward models (PRMs) and critic models to detect the errors of each annotated process, which aims to investigate the boundaries and limitations of existing PRMs and critic models. Finally, we hope that DeltaBench could guide developers to better understand the long CoT reasoning abilities of their models.

Summary

AI-Generated Summary

PDF282February 27, 2025