ProcessBench : Identification des Erreurs de Processus dans le Raisonnement Mathématique

Résumé

Étant donné que les modèles de langage commettent régulièrement des erreurs lors de la résolution de problèmes mathématiques, l'identification automatisée des erreurs dans le processus de raisonnement devient de plus en plus importante pour leur supervision à grande échelle. Dans cet article, nous présentons ProcessBench pour mesurer la capacité à identifier les étapes erronées dans le raisonnement mathématique. Il se compose de 3 400 cas de test, principalement axés sur des problèmes mathématiques de niveau compétition et olympique. Chaque cas de test contient une solution étape par étape avec l'emplacement de l'erreur annoté par des experts humains. Les modèles doivent identifier la première étape contenant une erreur, ou conclure que toutes les étapes sont correctes. Nous menons une évaluation approfondie sur ProcessBench, impliquant deux types de modèles : les modèles de récompense de processus (PRM) et les modèles critiques, où pour ces derniers, nous incitons les modèles de langage généraux à critiquer chaque étape de la solution. Nous tirons deux observations principales : (1) Les PRM existants ont généralement du mal à se généraliser à des problèmes mathématiques plus complexes au-delà de GSM8K et MATH. Ils sont moins performants que les modèles critiques (c'est-à-dire les modèles de langage généraux incités) et notre propre PRM entraîné qui est simplement affiné sur l'ensemble de données PRM800K. (2) Le meilleur modèle open source, QwQ-32B-Preview, a démontré une capacité de critique compétitive avec le modèle propriétaire GPT-4o, bien qu'il reste en retard sur le modèle spécialisé en raisonnement o1-mini. Nous espérons que ProcessBench pourra stimuler la recherche future dans l'évaluation du processus de raisonnement, ouvrant la voie à une supervision à grande échelle des modèles de langage.

English

As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

ProcessBench : Identification des Erreurs de Processus dans le Raisonnement Mathématique

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Résumé

Support