ProJudge: 다중 모달 다중 분야 벤치마크 및 MLLM 기반 프로세스 판단을 위한 명령어 튜닝 데이터셋
ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges
March 9, 2025
저자: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI
초록
다중 모드 대형 언어 모델(MLLMs)이 과학적 문제를 해결할 때 빈번히 오류를 보이기 때문에, 그들의 추론 과정의 타당성을 평가하는 것은 신뢰성을 보장하고 세밀한 모델 약점을 발견하는 데 중요합니다. 인간 평가는 노동 집약적이고 비용이 많이 들기 때문에, MLLMs를 자동화된 과정 평가자로 프롬프팅하는 것이 일반적인 관행이 되었습니다. 그러나 이러한 모델 기반 평가자의 신뢰성은 여전히 불확실합니다. 이를 해결하기 위해, 우리는 MLLM 기반 과정 평가자의 능력을 평가하기 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 ProJudgeBench을 소개합니다. ProJudgeBench은 2,400개의 테스트 케이스와 50,118개의 단계별 레이블로 구성되어 있으며, 다양한 난이도와 다중 모드 콘텐츠를 포함한 네 가지 과학 분야를 아우릅니다. ProJudgeBench에서는 각 단계가 인간 전문가에 의해 정확성, 오류 유형 및 설명에 대해 꼼꼼하게 주석 처리되어, 평가자가 오류를 탐지, 분류 및 진단하는 능력을 체계적으로 평가할 수 있습니다. ProJudgeBench에 대한 평가는 오픈소스 모델과 독점 모델 간의 상당한 성능 격차를 보여줍니다. 이 격차를 해소하기 위해, 우리는 대규모 지시 튜닝 데이터셋인 ProJudge-173k와 문제 해결을 명시적으로 추론하도록 장려하는 동적 이중 단계 미세 조정 전략을 추가로 제안합니다. 이 두 가지 기여는 오픈소스 모델의 과정 평가 능력을 크게 향상시킵니다. 모든 리소스는 신뢰할 수 있는 다중 모드 과정 평가의 미래 연구를 촉진하기 위해 공개될 예정입니다.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when
solving scientific problems, evaluating the validity of their reasoning
processes is critical for ensuring reliability and uncovering fine-grained
model weaknesses. Since human evaluation is laborious and costly, prompting
MLLMs as automated process judges has become a common practice. However, the
reliability of these model-based judges remains uncertain. To address this, we
introduce ProJudgeBench, the first comprehensive benchmark specifically
designed for evaluating abilities of MLLM-based process judges. ProJudgeBench
comprises 2,400 test cases and 50,118 step-level labels, spanning four
scientific disciplines with diverse difficulty levels and multi-modal content.
In ProJudgeBench, each step is meticulously annotated by human experts for
correctness, error type, and explanation, enabling a systematic evaluation of
judges' capabilities to detect, classify and diagnose errors. Evaluation on
ProJudgeBench reveals a significant performance gap between open-source and
proprietary models. To bridge this gap, we further propose ProJudge-173k, a
large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning
strategy that encourages models to explicitly reason through problem-solving
before assessing solutions. Both contributions significantly enhance the
process evaluation capabilities of open-source models. All the resources will
be released to foster future research of reliable multi-modal process
evaluation.Summary
AI-Generated Summary