Multi-Crit: Valutazione di Giudici Multimodali su Criteri Pluralistici
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
November 26, 2025
Autori: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI
Abstract
I grandi modelli multimodali (LMM) vengono sempre più adottati come giudici nei sistemi di valutazione multimodale grazie alla loro forte capacità di seguire istruzioni e alla coerenza con le preferenze umane. Tuttavia, la loro abilità di seguire criteri di valutazione diversificati e granulari rimane poco esplorata. Sviluppiamo Multi-Crit, un benchmark per valutare i giudici multimodali sulla loro capacità di seguire criteri pluralistici e produrre giudizi affidabili a livello di criterio. Coprendo sia compiti di generazione aperta che compiti di ragionamento verificabile, Multi-Crit è costruito attraverso una pipeline rigorosa di curatela dei dati che raccoglie coppie di risposte complesse con annotazioni umane multi-criterio. Introduce inoltre tre nuove metriche per valutare sistematicamente l'aderenza pluralistica, la flessibilità nel cambio di criterio e l'abilità di riconoscere conflitti di preferenza a livello di criterio. Un'analisi completa di 25 LMM rivela che 1) i modelli proprietari faticano ancora a mantenere un'aderenza coerente a criteri pluralistici—specialmente nella valutazione di compiti aperti; 2) i modelli open-source sono ulteriormente in ritardo nel seguire flessibilmente criteri diversificati; e 3) il fine-tuning come critico con segnali di giudizio olistici migliora il grounding visivo ma non riesce a generalizzare per giudizi pluralistici a livello di criterio. Ulteriori analisi sul fine-tuning per il ragionamento, il scaling a tempo di test, e la consistenza dei confini tra modelli open-source e proprietari esplorano ulteriormente i limiti degli attuali giudici multimodali. Come studio pionieristico, Multi-Crit getta le basi per costruire una valutazione dell'IA multimodale affidabile e governabile.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.