ChatPaper.aiChatPaper

ProJudge: 다중 모달 다중 분야 벤치마크 및 MLLM 기반 프로세스 판단을 위한 명령어 튜닝 데이터셋

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

March 9, 2025
저자: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI

초록

다중 모드 대형 언어 모델(MLLMs)이 과학적 문제를 해결할 때 빈번히 오류를 보이기 때문에, 그들의 추론 과정의 타당성을 평가하는 것은 신뢰성을 보장하고 세밀한 모델 약점을 발견하는 데 중요합니다. 인간 평가는 노동 집약적이고 비용이 많이 들기 때문에, MLLMs를 자동화된 과정 평가자로 프롬프팅하는 것이 일반적인 관행이 되었습니다. 그러나 이러한 모델 기반 평가자의 신뢰성은 여전히 불확실합니다. 이를 해결하기 위해, 우리는 MLLM 기반 과정 평가자의 능력을 평가하기 위해 특별히 설계된 첫 번째 포괄적인 벤치마크인 ProJudgeBench을 소개합니다. ProJudgeBench은 2,400개의 테스트 케이스와 50,118개의 단계별 레이블로 구성되어 있으며, 다양한 난이도와 다중 모드 콘텐츠를 포함한 네 가지 과학 분야를 아우릅니다. ProJudgeBench에서는 각 단계가 인간 전문가에 의해 정확성, 오류 유형 및 설명에 대해 꼼꼼하게 주석 처리되어, 평가자가 오류를 탐지, 분류 및 진단하는 능력을 체계적으로 평가할 수 있습니다. ProJudgeBench에 대한 평가는 오픈소스 모델과 독점 모델 간의 상당한 성능 격차를 보여줍니다. 이 격차를 해소하기 위해, 우리는 대규모 지시 튜닝 데이터셋인 ProJudge-173k와 문제 해결을 명시적으로 추론하도록 장려하는 동적 이중 단계 미세 조정 전략을 추가로 제안합니다. 이 두 가지 기여는 오픈소스 모델의 과정 평가 능력을 크게 향상시킵니다. 모든 리소스는 신뢰할 수 있는 다중 모드 과정 평가의 미래 연구를 촉진하기 위해 공개될 예정입니다.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when solving scientific problems, evaluating the validity of their reasoning processes is critical for ensuring reliability and uncovering fine-grained model weaknesses. Since human evaluation is laborious and costly, prompting MLLMs as automated process judges has become a common practice. However, the reliability of these model-based judges remains uncertain. To address this, we introduce ProJudgeBench, the first comprehensive benchmark specifically designed for evaluating abilities of MLLM-based process judges. ProJudgeBench comprises 2,400 test cases and 50,118 step-level labels, spanning four scientific disciplines with diverse difficulty levels and multi-modal content. In ProJudgeBench, each step is meticulously annotated by human experts for correctness, error type, and explanation, enabling a systematic evaluation of judges' capabilities to detect, classify and diagnose errors. Evaluation on ProJudgeBench reveals a significant performance gap between open-source and proprietary models. To bridge this gap, we further propose ProJudge-173k, a large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning strategy that encourages models to explicitly reason through problem-solving before assessing solutions. Both contributions significantly enhance the process evaluation capabilities of open-source models. All the resources will be released to foster future research of reliable multi-modal process evaluation.

Summary

AI-Generated Summary

PDF82March 17, 2025