ProcessBench : Identification des Erreurs de Processus dans le Raisonnement Mathématique
ProcessBench: Identifying Process Errors in Mathematical Reasoning
December 9, 2024
Auteurs: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Résumé
Étant donné que les modèles de langage commettent régulièrement des erreurs lors de la résolution de problèmes mathématiques, l'identification automatisée des erreurs dans le processus de raisonnement devient de plus en plus importante pour leur supervision à grande échelle. Dans cet article, nous présentons ProcessBench pour mesurer la capacité à identifier les étapes erronées dans le raisonnement mathématique. Il se compose de 3 400 cas de test, principalement axés sur des problèmes mathématiques de niveau compétition et olympique. Chaque cas de test contient une solution étape par étape avec l'emplacement de l'erreur annoté par des experts humains. Les modèles doivent identifier la première étape contenant une erreur, ou conclure que toutes les étapes sont correctes. Nous menons une évaluation approfondie sur ProcessBench, impliquant deux types de modèles : les modèles de récompense de processus (PRM) et les modèles critiques, où pour ces derniers, nous incitons les modèles de langage généraux à critiquer chaque étape de la solution. Nous tirons deux observations principales : (1) Les PRM existants ont généralement du mal à se généraliser à des problèmes mathématiques plus complexes au-delà de GSM8K et MATH. Ils sont moins performants que les modèles critiques (c'est-à-dire les modèles de langage généraux incités) et notre propre PRM entraîné qui est simplement affiné sur l'ensemble de données PRM800K. (2) Le meilleur modèle open source, QwQ-32B-Preview, a démontré une capacité de critique compétitive avec le modèle propriétaire GPT-4o, bien qu'il reste en retard sur le modèle spécialisé en raisonnement o1-mini. Nous espérons que ProcessBench pourra stimuler la recherche future dans l'évaluation du processus de raisonnement, ouvrant la voie à une supervision à grande échelle des modèles de langage.
English
As language models regularly make mistakes when solving math problems,
automated identification of errors in the reasoning process becomes
increasingly significant for their scalable oversight. In this paper, we
introduce ProcessBench for measuring the ability to identify erroneous steps in
mathematical reasoning. It consists of 3,400 test cases, primarily focused on
competition- and Olympiad-level math problems. Each test case contains a
step-by-step solution with error location annotated by human experts. Models
are required to identify the earliest step that contains an error, or conclude
that all steps are correct. We conduct extensive evaluation on ProcessBench,
involving two types of models: process reward models (PRMs) and critic models,
where for the latter we prompt general language models to critique each
solution step by step. We draw two main observations: (1) Existing PRMs
typically fail to generalize to more challenging math problems beyond GSM8K and
MATH. They underperform both critic models (i.e., prompted general language
models) and our own trained PRM that is straightforwardly fine-tuned on the
PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has
demonstrated the critique capability competitive with the proprietary model
GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We
hope ProcessBench can foster future research in reasoning process assessment,
paving the way toward scalable oversight of language models.Summary
AI-Generated Summary