Les grands modèles de langage peuvent-ils détecter les erreurs dans les raisonnements en chaîne de pensée complexes ?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
February 26, 2025
Auteurs: Yancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
cs.AI
Résumé
Récemment, les modèles de type o1 ont suscité une attention considérable, ces modèles produisant de longues étapes de raisonnement en chaîne (Chain-of-Thought, CoT) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs) existants. Dans cet article, afin de comprendre les qualités de ces longues CoTs et de mesurer les capacités de critique des LLMs existants sur ces longues CoTs, nous introduisons DeltaBench, qui inclut les longues CoTs générées par différents modèles de type o1 (par exemple, QwQ, DeepSeek-R1) pour diverses tâches de raisonnement (par exemple, mathématiques, code, raisonnement général), afin de mesurer la capacité à détecter les erreurs dans le raisonnement en longue CoT. Sur la base de DeltaBench, nous effectuons d'abord une analyse fine des longues CoTs générées pour découvrir l'efficacité et l'efficience des différents modèles de type o1. Ensuite, nous menons des évaluations approfondies des modèles de récompense de processus (Process Reward Models, PRMs) et des modèles critiques existants pour détecter les erreurs de chaque processus annoté, dans le but d'explorer les limites et les contraintes des PRMs et des modèles critiques actuels. Enfin, nous espérons que DeltaBench pourra guider les développeurs à mieux comprendre les capacités de raisonnement en longue CoT de leurs modèles.
English
Recently, o1-like models have drawn significant attention, where these models
produce the long Chain-of-Thought (CoT) reasoning steps to improve the
reasoning abilities of existing Large Language Models (LLMs). In this paper, to
understand the qualities of these long CoTs and measure the critique abilities
of existing LLMs on these long CoTs, we introduce the DeltaBench, including the
generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for
different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the
ability to detect errors in long CoT reasoning. Based on DeltaBench, we first
perform fine-grained analysis of the generated long CoTs to discover the
effectiveness and efficiency of different o1-like models. Then, we conduct
extensive evaluations of existing process reward models (PRMs) and critic
models to detect the errors of each annotated process, which aims to
investigate the boundaries and limitations of existing PRMs and critic models.
Finally, we hope that DeltaBench could guide developers to better understand
the long CoT reasoning abilities of their models.Summary
AI-Generated Summary