マルチクリット:多様な基準追従におけるマルチモーダル評価システムのベンチマーキング
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
November 26, 2025
著者: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI
要旨
大規模マルチモーダルモデル(LMM)は、強力な指示追従能力と人間の選好との一致から、マルチモーダル評価システムにおける審査役としての採用が増加している。しかし、多様できめ細かい評価基準に従う能力については、未だ十分に検証されていない。本研究では、マルチモーダル審査役が多元的基準に従い、信頼性のある基準レベルでの判断を生成する能力を評価するベンチマーク「Multi-Crit」を開発した。オープンエンド生成タスクと検証可能な推論タスクの両方を網羅するMulti-Critは、多基準の人間注釈付き困難な応答ペアを収集する厳密なデータ精製パイプラインを通じて構築されている。さらに、多元的遵守性、基準切り替えの柔軟性、基準レベルの選好衝突を認識する能力を体系的に評価する3つの新規指標を導入する。25のLMMに対する包括的分析により、以下の知見が得られた:1)プロプライエタリモデルでも、特にオープンエンド評価において多元的基準への一貫した遵守を維持するのは困難である、2)オープンソースモデルは多様な基準への柔軟な追随においてさらに遅れをとっている、3)全体的判断信号による批評的ファインチューニングは視覚的接地を強化するが、多元的な基準レベル判断には一般化しない。推論ファインチューニング、テスト時スケーリング、オープンソースとプロプライエタリモデル間の境界一貫性に関する追加分析により、現行のマルチモーダル審査役の限界がさらに探求された。先駆的研究として、Multi-Critは信頼性と制御可能性の高いマルチモーダルAI評価の基盤を築くものである。
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.