ChatPaper.aiChatPaper

ProJudge: Мультимодальный мультидисциплинарный бенчмарк и набор данных для тонкой настройки инструкций, предназначенный для MLLM-моделей в роли процессуальных судей

ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges

March 9, 2025
Авторы: Jiaxin Ai, Pengfei Zhou, Zhaopan Xu, Ming Li, Fanrui Zhang, Zizhen Li, Jianwen Sun, Yukang Feng, Baojin Huang, Zhongyuan Wang, Kaipeng Zhang
cs.AI

Аннотация

Поскольку многомодальные большие языковые модели (MLLMs) часто допускают ошибки при решении научных задач, оценка достоверности их процессов рассуждения имеет критическое значение для обеспечения надежности и выявления тонких слабостей моделей. Поскольку человеческая оценка трудоемка и затратна, использование MLLMs в качестве автоматизированных судей процессов стало распространенной практикой. Однако надежность таких моделей-судей остается неопределенной. Чтобы решить эту проблему, мы представляем ProJudgeBench — первый всеобъемлющий бенчмарк, специально разработанный для оценки способностей MLLM-судей процессов. ProJudgeBench включает 2400 тестовых случаев и 50 118 меток на уровне шагов, охватывая четыре научные дисциплины с различными уровнями сложности и многомодальным содержанием. В ProJudgeBench каждый шаг тщательно аннотируется экспертами на предмет корректности, типа ошибки и объяснения, что позволяет систематически оценивать способности судей обнаруживать, классифицировать и диагностировать ошибки. Оценка на ProJudgeBench выявляет значительный разрыв в производительности между открытыми и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем ProJudge-173k — крупномасштабный набор данных для настройки инструкций, а также стратегию динамической двухфазной тонкой настройки, которая побуждает модели явно рассуждать в процессе решения задачи перед оценкой решений. Оба вклада значительно улучшают способности открытых моделей к оценке процессов. Все ресурсы будут опубликованы для стимулирования будущих исследований в области надежной многомодальной оценки процессов.
English
As multi-modal large language models (MLLMs) frequently exhibit errors when solving scientific problems, evaluating the validity of their reasoning processes is critical for ensuring reliability and uncovering fine-grained model weaknesses. Since human evaluation is laborious and costly, prompting MLLMs as automated process judges has become a common practice. However, the reliability of these model-based judges remains uncertain. To address this, we introduce ProJudgeBench, the first comprehensive benchmark specifically designed for evaluating abilities of MLLM-based process judges. ProJudgeBench comprises 2,400 test cases and 50,118 step-level labels, spanning four scientific disciplines with diverse difficulty levels and multi-modal content. In ProJudgeBench, each step is meticulously annotated by human experts for correctness, error type, and explanation, enabling a systematic evaluation of judges' capabilities to detect, classify and diagnose errors. Evaluation on ProJudgeBench reveals a significant performance gap between open-source and proprietary models. To bridge this gap, we further propose ProJudge-173k, a large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning strategy that encourages models to explicitly reason through problem-solving before assessing solutions. Both contributions significantly enhance the process evaluation capabilities of open-source models. All the resources will be released to foster future research of reliable multi-modal process evaluation.

Summary

AI-Generated Summary

PDF82March 17, 2025