ProJudge: Um Benchmark Multimodal e Multidisciplinar com Conjunto de Dados para Ajuste por Instrução de Juízes de Processo Baseados em MLLM
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Autores: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Resumo
Como os modelos de linguagem multimodal de grande escala (MLLMs) frequentemente cometem erros ao resolver problemas científicos, avaliar a validade de seus processos de raciocínio é crucial para garantir confiabilidade e revelar fraquezas detalhadas dos modelos. Como a avaliação humana é trabalhosa e custosa, a prática de usar MLLMs como juízes automatizados de processos tornou-se comum. No entanto, a confiabilidade desses juízes baseados em modelos permanece incerta. Para abordar isso, introduzimos o ProJudgeBench, o primeiro benchmark abrangente especificamente projetado para avaliar as habilidades de juízes de processos baseados em MLLMs. O ProJudgeBench compreende 2.400 casos de teste e 50.118 rótulos em nível de etapa, abrangendo quatro disciplinas científicas com diversos níveis de dificuldade e conteúdo multimodal. No ProJudgeBench, cada etapa é meticulosamente anotada por especialistas humanos quanto à correção, tipo de erro e explicação, permitindo uma avaliação sistemática das capacidades dos juízes de detectar, classificar e diagnosticar erros. A avaliação no ProJudgeBench revela uma lacuna significativa de desempenho entre modelos de código aberto e proprietários. Para reduzir essa lacuna, propomos ainda o ProJudge-173k, um grande conjunto de dados de ajuste fino por instrução, e uma estratégia de ajuste fino Dinâmica de Duas Fases que incentiva os modelos a raciocinar explicitamente através da resolução de problemas antes de avaliar as soluções. Ambas as contribuições melhoram significativamente as capacidades de avaliação de processos dos modelos de código aberto. Todos os recursos serão liberados para promover pesquisas futuras sobre avaliação confiável de processos multimodais.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary