ProJudge : Un benchmark multimodal et multidisciplinaire ainsi qu'un ensemble de données pour l'ajustement par instruction dédié aux juges de processus basés sur MLLM
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Auteurs: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Résumé
Comme les modèles de langage multi-modaux (MLLMs) commettent fréquemment des erreurs lors de la résolution de problèmes scientifiques, évaluer la validité de leurs processus de raisonnement est crucial pour garantir leur fiabilité et identifier les faiblesses fines des modèles. Étant donné que l'évaluation humaine est laborieuse et coûteuse, l'utilisation des MLLMs comme juges automatisés des processus est devenue une pratique courante. Cependant, la fiabilité de ces juges basés sur des modèles reste incertaine. Pour répondre à ce problème, nous introduisons ProJudgeBench, le premier benchmark complet spécifiquement conçu pour évaluer les capacités des juges de processus basés sur des MLLMs. ProJudgeBench comprend 2 400 cas de test et 50 118 étiquettes au niveau des étapes, couvrant quatre disciplines scientifiques avec des niveaux de difficulté variés et un contenu multi-modal. Dans ProJudgeBench, chaque étape est méticuleusement annotée par des experts humains pour la justesse, le type d'erreur et l'explication, permettant une évaluation systématique des capacités des juges à détecter, classer et diagnostiquer les erreurs. L'évaluation sur ProJudgeBench révèle un écart de performance significatif entre les modèles open-source et propriétaires. Pour combler cet écart, nous proposons en outre ProJudge-173k, un jeu de données d'ajustement d'instructions à grande échelle, ainsi qu'une stratégie d'ajustement fin Dynamique Dual-Phase qui encourage les modèles à raisonner explicitement à travers la résolution de problèmes avant d'évaluer les solutions. Ces deux contributions améliorent significativement les capacités d'évaluation des processus des modèles open-source. Toutes les ressources seront publiées pour favoriser les recherches futures sur l'évaluation fiable des processus multi-modaux.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary