ProJudge: MLLMベースのプロセス判定のためのマルチモーダル・マルチディシプリン型ベンチマークおよび指示チューニングデータセット
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
著者: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)は、科学的問題を解決する際に頻繁にエラーを示すため、その推論プロセスの妥当性を評価することは、信頼性を確保し、モデルの細かい弱点を明らかにするために重要です。人間による評価は手間とコストがかかるため、MLLMを自動化されたプロセス評価者としてプロンプトすることが一般的な手法となっています。しかし、これらのモデルベースの評価者の信頼性は不確かです。この問題に対処するため、我々はProJudgeBenchを導入します。これは、MLLMベースのプロセス評価者の能力を評価するために特別に設計された初の包括的なベンチマークです。ProJudgeBenchは、2,400のテストケースと50,118のステップレベルのラベルを含み、4つの科学分野にわたる多様な難易度とマルチモーダルコンテンツをカバーしています。ProJudgeBenchでは、各ステップが人間の専門家によって正しさ、エラータイプ、説明について詳細に注釈されており、評価者がエラーを検出、分類、診断する能力を体系的に評価することが可能です。ProJudgeBenchでの評価により、オープンソースモデルとプロプライエタリモデルの間に大きな性能差があることが明らかになりました。このギャップを埋めるため、我々はさらにProJudge-173kという大規模な指示チューニングデータセットと、Dynamic Dual-Phaseファインチューニング戦略を提案します。この戦略は、モデルが解決策を評価する前に明示的に問題解決を推論することを促します。これらの貢献により、オープンソースモデルのプロセス評価能力が大幅に向上します。すべてのリソースは、信頼性のあるマルチモーダルプロセス評価の将来の研究を促進するために公開されます。
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary