ProcessBench: Het identificeren van procesfouten in wiskundig redeneren
ProcessBench: Identifying Process Errors in Mathematical Reasoning
December 9, 2024
Auteurs: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
Samenvatting
Aangezien taalmodellen regelmatig fouten maken bij het oplossen van wiskundige problemen, wordt geautomatiseerde identificatie van fouten in het redeneerproces steeds belangrijker voor hun schaalbare toezicht. In dit artikel introduceren we ProcessBench om de vaardigheid te meten om foutieve stappen in wiskundig redeneren te identificeren. Het bestaat uit 3.400 testgevallen, voornamelijk gericht op wiskundige problemen op competitie- en Olympisch niveau. Elk testgeval bevat een stapsgewijze oplossing met de locatie van de fout geannoteerd door menselijke experts. Modellen moeten de vroegste stap identificeren die een fout bevat, of concluderen dat alle stappen correct zijn. We voeren uitgebreide evaluaties uit op ProcessBench, waarbij twee soorten modellen betrokken zijn: procesbeloningsmodellen (PRM's) en criticusmodellen, waarbij we voor de laatste algemene taalmodellen vragen om elke oplossingsstap kritisch te bekijken. We trekken twee belangrijke observaties: (1) Bestaande PRM's falen doorgaans om te generaliseren naar uitdagendere wiskundige problemen dan GSM8K en MATH. Ze presteren minder dan criticusmodellen (d.w.z. door algemene taalmodellen gevraagd) en onze eigen getrainde PRM die eenvoudig is afgestemd op de PRM800K-dataset. (2) Het beste open-source model, QwQ-32B-Preview, heeft de kritiekcapaciteit aangetoond die concurrerend is met het eigen model GPT-4o, hoewel het nog steeds achterloopt op de op redenering gespecialiseerde o1-mini. We hopen dat ProcessBench toekomstig onderzoek naar de beoordeling van redeneerprocessen kan bevorderen, waardoor de weg wordt vrijgemaakt naar schaalbaar toezicht op taalmodellen.
English
As language models regularly make mistakes when solving math problems,
automated identification of errors in the reasoning process becomes
increasingly significant for their scalable oversight. In this paper, we
introduce ProcessBench for measuring the ability to identify erroneous steps in
mathematical reasoning. It consists of 3,400 test cases, primarily focused on
competition- and Olympiad-level math problems. Each test case contains a
step-by-step solution with error location annotated by human experts. Models
are required to identify the earliest step that contains an error, or conclude
that all steps are correct. We conduct extensive evaluation on ProcessBench,
involving two types of models: process reward models (PRMs) and critic models,
where for the latter we prompt general language models to critique each
solution step by step. We draw two main observations: (1) Existing PRMs
typically fail to generalize to more challenging math problems beyond GSM8K and
MATH. They underperform both critic models (i.e., prompted general language
models) and our own trained PRM that is straightforwardly fine-tuned on the
PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has
demonstrated the critique capability competitive with the proprietary model
GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We
hope ProcessBench can foster future research in reasoning process assessment,
paving the way toward scalable oversight of language models.