Multi-Crit: Бенчмаркинг мультимодальных систем оценки по плюралистическим критериям следования инструкциям
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
November 26, 2025
Авторы: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI
Аннотация
Крупные мультимодальные модели (LMM) все чаще используются в качестве оценщиков в системах мультимодальной оценки благодаря их способности следовать инструкциям и соответствию человеческим предпочтениям. Однако их способность следовать разнообразным, детализированным критериям оценки остается недостаточно изученной. Мы разработали Multi-Crit — эталонный набор для оценки мультимодальных моделей-судей на предмет их способности следовать плюралистическим критериям и формировать надежные суждения на уровне отдельных критериев. Охватывая как задачи открытой генерации, так и проверяемые задачи на рассуждение, Multi-Crit создан с помощью строгого конвейера курирования данных, который собирает сложные пары ответов с многокритериальными человеческими аннотациями. Он также вводит три новые метрики для систематической оценки соответствия плюралистическим требованиям, гибкости переключения между критериями и способности распознавать конфликты предпочтений на уровне критериев. Комплексный анализ 25 LMM выявил, что: 1) проприетарные модели по-прежнему с трудом сохраняют последовательное соответствие плюралистическим критериям, особенно при оценке открытых заданий; 2) модели с открытым исходным кодом еще больше отстают в гибком следовании разнообразным критериям; 3) дообучение моделей-критиков на сигналах целостных суждений улучшает визуальное grounding, но не обобщается на плюралистические суждения на уровне критериев. Дополнительные анализы дообучения на рассуждениях, масштабирования во время тестирования и границ согласованности между моделями с открытым и закрытым исходным кодом дополнительно исследуют пределы возможностей современных мультимодальных оценщиков. Как пионерское исследование, Multi-Crit закладывает основу для создания надежной и управляемой оценки искусственного интеллекта в мультимодальной сфере.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.