ChatPaper.aiChatPaper

ProcessBench: Identifizierung von Prozessfehlern in mathematischem Denken

ProcessBench: Identifying Process Errors in Mathematical Reasoning

December 9, 2024
Autoren: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI

Zusammenfassung

Da Sprachmodelle regelmäßig Fehler bei der Lösung mathematischer Probleme machen, wird die automatisierte Identifizierung von Fehlern im Denkprozess zunehmend wichtig für ihre skalierbare Überwachung. In diesem Paper stellen wir ProcessBench vor, um die Fähigkeit zur Identifizierung fehlerhafter Schritte im mathematischen Denkprozess zu messen. Es besteht aus 3.400 Testfällen, die hauptsächlich auf Wettbewerbs- und Olympiade-Level Mathematikprobleme ausgerichtet sind. Jeder Testfall enthält eine schrittweise Lösung mit von menschlichen Experten annotierten Fehlerorten. Modelle müssen den frühesten Schritt identifizieren, der einen Fehler enthält, oder schlussfolgern, dass alle Schritte korrekt sind. Wir führen eine umfassende Evaluation auf ProcessBench durch, die zwei Arten von Modellen umfasst: Prozessbelohnungsmodelle (PRMs) und Kritikermodelle, wobei wir bei letzteren allgemeine Sprachmodelle auffordern, jede Lösung schrittweise zu kritisieren. Wir ziehen zwei Hauptbeobachtungen: (1) Bestehende PRMs scheitern typischerweise daran, sich auf anspruchsvollere Mathematikprobleme jenseits von GSM8K und MATH zu verallgemeinern. Sie schneiden schlechter ab als Kritikermodelle (d. h. aufgeforderte allgemeine Sprachmodelle) und unser eigenes trainiertes PRM, das unkompliziert auf dem PRM800K-Datensatz feinabgestimmt ist. (2) Das beste Open-Source-Modell, QwQ-32B-Preview, hat die Fähigkeit zur Kritik gezeigt, die mit dem proprietären Modell GPT-4o konkurrieren kann, obwohl es immer noch hinter dem auf den Denkprozess spezialisierten o1-mini zurückbleibt. Wir hoffen, dass ProcessBench zukünftige Forschung im Bereich der Bewertung von Denkprozessen fördern kann und den Weg für eine skalierbare Überwachung von Sprachmodellen ebnet.
English
As language models regularly make mistakes when solving math problems, automated identification of errors in the reasoning process becomes increasingly significant for their scalable oversight. In this paper, we introduce ProcessBench for measuring the ability to identify erroneous steps in mathematical reasoning. It consists of 3,400 test cases, primarily focused on competition- and Olympiad-level math problems. Each test case contains a step-by-step solution with error location annotated by human experts. Models are required to identify the earliest step that contains an error, or conclude that all steps are correct. We conduct extensive evaluation on ProcessBench, involving two types of models: process reward models (PRMs) and critic models, where for the latter we prompt general language models to critique each solution step by step. We draw two main observations: (1) Existing PRMs typically fail to generalize to more challenging math problems beyond GSM8K and MATH. They underperform both critic models (i.e., prompted general language models) and our own trained PRM that is straightforwardly fine-tuned on the PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has demonstrated the critique capability competitive with the proprietary model GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We hope ProcessBench can foster future research in reasoning process assessment, paving the way toward scalable oversight of language models.

Summary

AI-Generated Summary

PDF836December 10, 2024