ProJudge : Un benchmark multimodal et multidisciplinaire ainsi qu'un ensemble de données pour l'ajustement par instruction dédié aux juges de processus basés sur MLLM

Résumé

Comme les modèles de langage multi-modaux (MLLMs) commettent fréquemment des erreurs lors de la résolution de problèmes scientifiques, évaluer la validité de leurs processus de raisonnement est crucial pour garantir leur fiabilité et identifier les faiblesses fines des modèles. Étant donné que l'évaluation humaine est laborieuse et coûteuse, l'utilisation des MLLMs comme juges automatisés des processus est devenue une pratique courante. Cependant, la fiabilité de ces juges basés sur des modèles reste incertaine. Pour répondre à ce problème, nous introduisons ProJudgeBench, le premier benchmark complet spécifiquement conçu pour évaluer les capacités des juges de processus basés sur des MLLMs. ProJudgeBench comprend 2 400 cas de test et 50 118 étiquettes au niveau des étapes, couvrant quatre disciplines scientifiques avec des niveaux de difficulté variés et un contenu multi-modal. Dans ProJudgeBench, chaque étape est méticuleusement annotée par des experts humains pour la justesse, le type d'erreur et l'explication, permettant une évaluation systématique des capacités des juges à détecter, classer et diagnostiquer les erreurs. L'évaluation sur ProJudgeBench révèle un écart de performance significatif entre les modèles open-source et propriétaires. Pour combler cet écart, nous proposons en outre ProJudge-173k, un jeu de données d'ajustement d'instructions à grande échelle, ainsi qu'une stratégie d'ajustement fin Dynamique Dual-Phase qui encourage les modèles à raisonner explicitement à travers la résolution de problèmes avant d'évaluer les solutions. Ces deux contributions améliorent significativement les capacités d'évaluation des processus des modèles open-source. Toutes les ressources seront publiées pour favoriser les recherches futures sur l'évaluation fiable des processus multi-modaux.

English

As multi-modal large language models (MLLMs) frequently exhibit errors when solving scientific problems, evaluating the validity of their reasoning processes is critical for ensuring reliability and uncovering fine-grained model weaknesses. Since human evaluation is laborious and costly, prompting MLLMs as automated process judges has become a common practice. However, the reliability of these model-based judges remains uncertain. To address this, we introduce ProJudgeBench, the first comprehensive benchmark specifically designed for evaluating abilities of MLLM-based process judges. ProJudgeBench comprises 2,400 test cases and 50,118 step-level labels, spanning four scientific disciplines with diverse difficulty levels and multi-modal content. In ProJudgeBench, each step is meticulously annotated by human experts for correctness, error type, and explanation, enabling a systematic evaluation of judges' capabilities to detect, classify and diagnose errors. Evaluation on ProJudgeBench reveals a significant performance gap between open-source and proprietary models. To bridge this gap, we further propose ProJudge-173k, a large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning strategy that encourages models to explicitly reason through problem-solving before assessing solutions. Both contributions significantly enhance the process evaluation capabilities of open-source models. All the resources will be released to foster future research of reliable multi-modal process evaluation.