Les grands modèles de langage peuvent-ils détecter les erreurs dans les raisonnements en chaîne de pensée complexes ?

papers.abstract

Récemment, les modèles de type o1 ont suscité une attention considérable, ces modèles produisant de longues étapes de raisonnement en chaîne (Chain-of-Thought, CoT) pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs) existants. Dans cet article, afin de comprendre les qualités de ces longues CoTs et de mesurer les capacités de critique des LLMs existants sur ces longues CoTs, nous introduisons DeltaBench, qui inclut les longues CoTs générées par différents modèles de type o1 (par exemple, QwQ, DeepSeek-R1) pour diverses tâches de raisonnement (par exemple, mathématiques, code, raisonnement général), afin de mesurer la capacité à détecter les erreurs dans le raisonnement en longue CoT. Sur la base de DeltaBench, nous effectuons d'abord une analyse fine des longues CoTs générées pour découvrir l'efficacité et l'efficience des différents modèles de type o1. Ensuite, nous menons des évaluations approfondies des modèles de récompense de processus (Process Reward Models, PRMs) et des modèles critiques existants pour détecter les erreurs de chaque processus annoté, dans le but d'explorer les limites et les contraintes des PRMs et des modèles critiques actuels. Enfin, nous espérons que DeltaBench pourra guider les développeurs à mieux comprendre les capacités de raisonnement en longue CoT de leurs modèles.

English

Recently, o1-like models have drawn significant attention, where these models produce the long Chain-of-Thought (CoT) reasoning steps to improve the reasoning abilities of existing Large Language Models (LLMs). In this paper, to understand the qualities of these long CoTs and measure the critique abilities of existing LLMs on these long CoTs, we introduce the DeltaBench, including the generated long CoTs from different o1-like models (e.g., QwQ, DeepSeek-R1) for different reasoning tasks (e.g., Math, Code, General Reasoning), to measure the ability to detect errors in long CoT reasoning. Based on DeltaBench, we first perform fine-grained analysis of the generated long CoTs to discover the effectiveness and efficiency of different o1-like models. Then, we conduct extensive evaluations of existing process reward models (PRMs) and critic models to detect the errors of each annotated process, which aims to investigate the boundaries and limitations of existing PRMs and critic models. Finally, we hope that DeltaBench could guide developers to better understand the long CoT reasoning abilities of their models.

Les grands modèles de langage peuvent-ils détecter les erreurs dans les raisonnements en chaîne de pensée complexes ?

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

papers.abstract

Support