ProcessBench: 数学的推論におけるプロセスエラーの特定
ProcessBench: Identifying Process Errors in Mathematical Reasoning
December 9, 2024
著者: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
cs.AI
要旨
言語モデルは数学問題を解く際に定期的に間違いを com するため、推論プロセスの誤りを自動的に特定することがますます重要になっています。本論文では、数学的推論における誤ったステップを特定する能力を測定するための ProcessBench を紹介します。これには、競技やオリンピアードレベルの数学問題に主に焦点を当てた 3,400 のテストケースが含まれています。各テストケースには、人間の専門家によって注釈付けされた誤りの位置を含むステップバイステップの解法が含まれています。モデルは、誤りを含む最初のステップを特定するか、あるいはすべてのステップが正しいと結論付ける必要があります。ProcessBench で広範な評価を行い、プロセス報酬モデル(PRM)と批評モデルの2種類のモデルを対象とします。後者では、一般的な言語モデルに各解法ステップを批評させます。主な観察結果は次の2点です:(1) 既存の PRM は、GSM8K や MATH を超えるより難しい数学問題に一般化するのに通常失敗します。彼らは、批評モデル(つまり、一般的な言語モデルに促されたもの)および PRM800K データセットで簡単に微調整された私たち自身の訓練された PRM に劣ります。(2) 最高のオープンソースモデルである QwQ-32B-Preview は、プロプライエタリモデル GPT-4o と競合する批評能力を示していますが、まだ推論に特化した o1-mini に遅れを取っています。ProcessBench が言語モデルの拡張可能な監視に向けた道筋を開く推論プロセス評価の将来の研究を促進できることを願っています。
English
As language models regularly make mistakes when solving math problems,
automated identification of errors in the reasoning process becomes
increasingly significant for their scalable oversight. In this paper, we
introduce ProcessBench for measuring the ability to identify erroneous steps in
mathematical reasoning. It consists of 3,400 test cases, primarily focused on
competition- and Olympiad-level math problems. Each test case contains a
step-by-step solution with error location annotated by human experts. Models
are required to identify the earliest step that contains an error, or conclude
that all steps are correct. We conduct extensive evaluation on ProcessBench,
involving two types of models: process reward models (PRMs) and critic models,
where for the latter we prompt general language models to critique each
solution step by step. We draw two main observations: (1) Existing PRMs
typically fail to generalize to more challenging math problems beyond GSM8K and
MATH. They underperform both critic models (i.e., prompted general language
models) and our own trained PRM that is straightforwardly fine-tuned on the
PRM800K dataset. (2) The best open-source model, QwQ-32B-Preview, has
demonstrated the critique capability competitive with the proprietary model
GPT-4o, despite that it still lags behind the reasoning-specialized o1-mini. We
hope ProcessBench can foster future research in reasoning process assessment,
paving the way toward scalable oversight of language models.Summary
AI-Generated Summary