ChatPaper.aiChatPaper

Multi-Crit : Évaluation de Juges Multimodaux sur le Suivi de Critères Pluralistes

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

November 26, 2025
papers.authors: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI

papers.abstract

Les grands modèles multimodaux (LMMs) sont de plus en plus adoptés en tant qu'évaluateurs dans les systèmes d'évaluation multimodale en raison de leur forte capacité à suivre des instructions et de leur cohérence avec les préférences humaines. Cependant, leur aptitude à suivre des critères d'évaluation diversifiés et granulaires reste insuffisamment explorée. Nous développons Multi-Crit, un benchmark pour évaluer les juges multimodaux sur leur capacité à suivre des critères pluralistes et à produire des jugements fiables au niveau de chaque critère. Couvrant à la fois les tâches de génération ouverte et de raisonnement vérifiable, Multi-Crit est construit grâce à un pipeline rigoureux de curation de données qui recueille des paires de réponses complexes avec des annotations humaines multi-critères. Il introduit en outre trois nouvelles métriques pour évaluer systématiquement l'adhésion pluraliste, la flexibilité de changement de critère et la capacité à reconnaître les conflits de préférence au niveau des critères. Une analyse approfondie de 25 LMMs révèle que 1) les modèles propriétaires peinent encore à maintenir une adhésion cohérente aux critères pluralistes – particulièrement dans l'évaluation ouverte ; 2) les modèles open-source accusent un retard supplémentaire dans le suivi flexible de critères diversifiés ; et 3) le fine-tuning avec des signaux de jugement holistiques améliore l'ancrage visuel mais ne parvient pas à généraliser le jugement au niveau des critères pluralistes. Des analyses complémentaires sur le fine-tuning du raisonnement, la mise à l'échelle au moment du test, et la cohérence des limites entre modèles open-source et propriétaires sondent davantage les limites des juges multimodaux actuels. En tant qu'étude pionnière, Multi-Crit jette les bases pour construire une évaluation fiable et pilotable de l'IA multimodale.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.
PDF92December 1, 2025