ProJudge: Мультимодальный мультидисциплинарный бенчмарк и набор данных для тонкой настройки инструкций, предназначенный для MLLM-моделей в роли процессуальных судей

Аннотация

Поскольку многомодальные большие языковые модели (MLLMs) часто допускают ошибки при решении научных задач, оценка достоверности их процессов рассуждения имеет критическое значение для обеспечения надежности и выявления тонких слабостей моделей. Поскольку человеческая оценка трудоемка и затратна, использование MLLMs в качестве автоматизированных судей процессов стало распространенной практикой. Однако надежность таких моделей-судей остается неопределенной. Чтобы решить эту проблему, мы представляем ProJudgeBench — первый всеобъемлющий бенчмарк, специально разработанный для оценки способностей MLLM-судей процессов. ProJudgeBench включает 2400 тестовых случаев и 50 118 меток на уровне шагов, охватывая четыре научные дисциплины с различными уровнями сложности и многомодальным содержанием. В ProJudgeBench каждый шаг тщательно аннотируется экспертами на предмет корректности, типа ошибки и объяснения, что позволяет систематически оценивать способности судей обнаруживать, классифицировать и диагностировать ошибки. Оценка на ProJudgeBench выявляет значительный разрыв в производительности между открытыми и проприетарными моделями. Чтобы сократить этот разрыв, мы предлагаем ProJudge-173k — крупномасштабный набор данных для настройки инструкций, а также стратегию динамической двухфазной тонкой настройки, которая побуждает модели явно рассуждать в процессе решения задачи перед оценкой решений. Оба вклада значительно улучшают способности открытых моделей к оценке процессов. Все ресурсы будут опубликованы для стимулирования будущих исследований в области надежной многомодальной оценки процессов.

English

As multi-modal large language models (MLLMs) frequently exhibit errors when solving scientific problems, evaluating the validity of their reasoning processes is critical for ensuring reliability and uncovering fine-grained model weaknesses. Since human evaluation is laborious and costly, prompting MLLMs as automated process judges has become a common practice. However, the reliability of these model-based judges remains uncertain. To address this, we introduce ProJudgeBench, the first comprehensive benchmark specifically designed for evaluating abilities of MLLM-based process judges. ProJudgeBench comprises 2,400 test cases and 50,118 step-level labels, spanning four scientific disciplines with diverse difficulty levels and multi-modal content. In ProJudgeBench, each step is meticulously annotated by human experts for correctness, error type, and explanation, enabling a systematic evaluation of judges' capabilities to detect, classify and diagnose errors. Evaluation on ProJudgeBench reveals a significant performance gap between open-source and proprietary models. To bridge this gap, we further propose ProJudge-173k, a large-scale instruction-tuning dataset, and a Dynamic Dual-Phase fine-tuning strategy that encourages models to explicitly reason through problem-solving before assessing solutions. Both contributions significantly enhance the process evaluation capabilities of open-source models. All the resources will be released to foster future research of reliable multi-modal process evaluation.