MPBench: プロセスエラー識別のための包括的マルチモーダル推論ベンチマーク
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
March 16, 2025
著者: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang
cs.AI
要旨
推論能力は、大規模言語モデル(LLMs)が複雑なタスクに対処する上で不可欠な能力であり、その過程におけるエラーの特定は、この能力を向上させるために極めて重要です。最近では、プロセスレベル報酬モデル(PRMs)が提案され、トレーニング中の強化学習とデータ生成を促進するステップごとの報酬を提供し、推論時にLLMsを正しいステップへと導くことで、推論精度の向上が図られています。しかし、既存のPRMsベンチマークはテキストベースであり、エラー検出に焦点を当てており、推論探索などの他のシナリオを無視しています。このギャップを埋めるため、我々はMPBenchを導入します。これは、多様なシナリオにおけるPRMsの有効性を体系的に評価するための、包括的でマルチタスク、マルチモーダルなベンチマークです。MPBenchは、推論プロセスにおけるPRMsの特定の役割を対象とした3つの評価パラダイムを採用しています:(1)ステップ正しさ、これは各中間推論ステップの正しさを評価します;(2)回答集約、これは複数の解決策を集約し、最良のものを選択します;(3)推論プロセス探索、これは推論中に最適な推論ステップを探索することを導きます。これらのパラダイムを通じて、MPBenchは包括的な評価を行い、マルチモーダルPRMsの開発に関する洞察を提供します。
English
Reasoning is an essential capacity for large language models (LLMs) to
address complex tasks, where the identification of process errors is vital for
improving this ability. Recently, process-level reward models (PRMs) were
proposed to provide step-wise rewards that facilitate reinforcement learning
and data production during training and guide LLMs toward correct steps during
inference, thereby improving reasoning accuracy. However, existing benchmarks
of PRMs are text-based and focus on error detection, neglecting other scenarios
like reasoning search. To address this gap, we introduce MPBench, a
comprehensive, multi-task, multimodal benchmark designed to systematically
assess the effectiveness of PRMs in diverse scenarios. MPBench employs three
evaluation paradigms, each targeting a specific role of PRMs in the reasoning
process: (1) Step Correctness, which assesses the correctness of each
intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple
solutions and selects the best one; and (3) Reasoning Process Search, which
guides the search for optimal reasoning steps during inference. Through these
paradigms, MPBench makes comprehensive evaluations and provides insights into
the development of multimodal PRMs.Summary
AI-Generated Summary