ProJudge: Een Multi-Modale Multi-Discipline Benchmark en Instructie-Afstemmingsdataset voor MLLM-gebaseerde Procesbeoordelaars
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
Auteurs: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
Samenvatting
Aangezien multimodale grote taalmodellen (MLLMs) vaak fouten vertonen bij het oplossen van wetenschappelijke problemen, is het evalueren van de geldigheid van hun redeneerprocessen cruciaal om betrouwbaarheid te waarborgen en fijnmazige modelzwaktes bloot te leggen. Omdat menselijke evaluatie arbeidsintensief en kostbaar is, is het aansturen van MLLMs als geautomatiseerde procesbeoordelaars een gangbare praktijk geworden. De betrouwbaarheid van deze modelgebaseerde beoordelaars blijft echter onzeker. Om dit aan te pakken, introduceren we ProJudgeBench, de eerste uitgebreide benchmark die specifiek is ontworpen voor het evalueren van de vaardigheden van MLLM-gebaseerde procesbeoordelaars. ProJudgeBench omvat 2.400 testgevallen en 50.118 stapniveau-labels, die vier wetenschappelijke disciplines bestrijken met diverse moeilijkheidsgraden en multimodale inhoud. In ProJudgeBench is elke stap zorgvuldig geannoteerd door menselijke experts op correctheid, fouttype en uitleg, wat een systematische evaluatie mogelijk maakt van de capaciteiten van beoordelaars om fouten te detecteren, classificeren en diagnosticeren. Evaluatie op ProJudgeBench onthult een aanzienlijk prestatieverschil tussen open-source en propriëtaire modellen. Om dit verschil te overbruggen, stellen we verder ProJudge-173k voor, een grootschalige instructie-afstemmingsdataset, en een Dynamische Dual-Fase afstemmingsstrategie die modellen aanmoedigt expliciet te redeneren door probleemoplossing voordat ze oplossingen beoordelen. Beide bijdragen verbeteren de procesevaluatiecapaciteiten van open-source modellen aanzienlijk. Alle bronnen zullen worden vrijgegeven om toekomstig onderzoek naar betrouwbare multimodale procesevaluatie te bevorderen.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary