ProJudge: Un Benchmark Multimodale e Multidisciplinare e un Dataset di Instruction-Tuning per Giudici di Processo Basati su MLLM
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Autori: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Abstract
Poiché i modelli linguistici multimodali di grandi dimensioni (MLLMs) spesso commettono errori nel risolvere problemi scientifici, valutare la validità dei loro processi di ragionamento è fondamentale per garantire l'affidabilità e individuare le debolezze dettagliate dei modelli. Dato che la valutazione umana è laboriosa e costosa, l'uso di MLLMs come giudici automatizzati dei processi è diventata una pratica comune. Tuttavia, l'affidabilità di questi giudici basati su modelli rimane incerta. Per affrontare questo problema, introduciamo ProJudgeBench, il primo benchmark completo specificamente progettato per valutare le capacità dei giudici di processo basati su MLLM. ProJudgeBench comprende 2.400 casi di test e 50.118 etichette a livello di passaggio, che coprono quattro discipline scientifiche con diversi livelli di difficoltà e contenuti multimodali. In ProJudgeBench, ogni passaggio è meticolosamente annotato da esperti umani per correttezza, tipo di errore e spiegazione, consentendo una valutazione sistematica delle capacità dei giudici di rilevare, classificare e diagnosticare errori. La valutazione su ProJudgeBench rivela un divario significativo nelle prestazioni tra i modelli open-source e quelli proprietari. Per colmare questo divario, proponiamo ulteriormente ProJudge-173k, un ampio dataset di ottimizzazione delle istruzioni, e una strategia di fine-tuning Dinamica a Doppia Fase che incoraggia i modelli a ragionare esplicitamente attraverso la risoluzione dei problemi prima di valutare le soluzioni. Entrambi i contributi migliorano significativamente le capacità di valutazione dei processi dei modelli open-source. Tutte le risorse saranno rilasciate per favorire future ricerche su una valutazione affidabile dei processi multimodali.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.