멀티크리트: 다원적 기준 준수를 통한 멀티모달 평가자 벤치마킹
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
November 26, 2025
저자: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI
초록
대규모 멀티모달 모델(LMM)은 강력한 지시 추종 능력과 인간 선호도와의 일치성으로 인해 멀티모달 평가 시스템에서 평가자 역할로 점차 채택되고 있습니다. 그러나 다양한 세분화된 평가 기준을 따르는 능력에 대해서는 아직 연구가 부족한 실정입니다. 본 연구에서는 멀티모달 평가자가 다원적 기준을 준수하고 신뢰할 수 있는 기준 수준 판단을 생성하는 능력을 평가하기 위한 벤치마크인 Multi-Crit를 개발했습니다. 자유 형성 생성 작업과 검증 가능한 추론 작업을 모두 아우르는 Multi-Crit는 다중 기준 인간 주해가 달린 어려운 응답 쌍을 수집하는 엄격한 데이터 큐레이션 파이프라인을 통해 구축되었습니다. 또한 다원적 준수도, 기준 전환 유연성, 그리고 기준 수준 선호도 충돌 인식 능력을 체계적으로 평가하기 위한 세 가지 새로운 지표를 도입했습니다. 25개 LMM에 대한 포괄적 분석 결과, 1) 독점 모델들은 특히 자유 형성 평가에서 다원적 기준을 일관되게 준수하는 데 여전히 어려움을 겪고 있으며, 2) 오픈소스 모델들은 다양한 기준을 유연하게 따르는 데 더 뒤처져 있으며, 3) 전체론적 판단 신호를 이용한 비판 미세 조정은 시각적 근거 강화에는 도움이 되지만 다원적 기준 수준 판단으로는 일반화되지 못하는 것으로 나타났습니다. 추론 미세 조정, 테스트 시 스케일링, 그리고 오픈소스와 독점 모델 간 경계 일관성에 대한 추가 분석을 통해 현재 멀티모달 평가자들의 한계를 더욱 심층적으로 탐구했습니다. 선도적 연구로서 Multi-Crit는 신뢰할 수 있고 조정 가능한 멀티모달 AI 평가의 기반을 마련합니다.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.