ProJudge: Un punto de referencia multimodal y multidisciplinario, y un conjunto de datos para el ajuste por instrucciones de jueces de procesos basados en MLLM
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Autores: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Resumen
Dado que los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) suelen cometer errores al resolver problemas científicos, evaluar la validez de sus procesos de razonamiento es crucial para garantizar su fiabilidad y descubrir debilidades específicas del modelo. Dado que la evaluación humana es laboriosa y costosa, se ha vuelto una práctica común utilizar MLLMs como jueces automatizados de procesos. Sin embargo, la fiabilidad de estos jueces basados en modelos sigue siendo incierta. Para abordar esto, presentamos ProJudgeBench, el primer punto de referencia integral diseñado específicamente para evaluar las capacidades de los jueces de procesos basados en MLLMs. ProJudgeBench comprende 2,400 casos de prueba y 50,118 etiquetas a nivel de paso, abarcando cuatro disciplinas científicas con diversos niveles de dificultad y contenido multimodal. En ProJudgeBench, cada paso está meticulosamente anotado por expertos humanos en cuanto a su corrección, tipo de error y explicación, lo que permite una evaluación sistemática de las capacidades de los jueces para detectar, clasificar y diagnosticar errores. La evaluación en ProJudgeBench revela una brecha significativa en el rendimiento entre los modelos de código abierto y los propietarios. Para cerrar esta brecha, proponemos además ProJudge-173k, un conjunto de datos de ajuste por instrucciones a gran escala, y una estrategia de ajuste fino Dinámica de Doble Fase que fomenta que los modelos razonen explícitamente a través de la resolución de problemas antes de evaluar las soluciones. Ambas contribuciones mejoran significativamente las capacidades de evaluación de procesos de los modelos de código abierto. Todos los recursos serán liberados para fomentar futuras investigaciones sobre la evaluación fiable de procesos multimodales.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary