ChatPaper.aiChatPaper

Multi-Crit: Het Evalueren van Multimodale Beoordelaars op Pluralistische Criteria-Naleving

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

November 26, 2025
Auteurs: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI

Samenvatting

Grootschalige multimodale modellen (LMM's) worden vanwege hun sterke instructievolging en consistentie met menselijke voorkeuren steeds vaker ingezet als beoordelaars in multimodale evaluatiesystemen. Hun vermogen om diverse, fijnmazige evaluatiecriteria te volgen, blijft echter onderbelicht. Wij ontwikkelen Multi-Crit, een benchmark voor het evalueren van multimodale beoordelaars op hun vermogen om pluralistische criteria te volgen en betrouwbare, criteriumspecifieke oordelen te vormen. Multi-Crit, dat zowel open-einde-generatietaken als verifieerbare redeneertaken omvat, is opgebouwd via een rigoureus data-curatieproces dat uitdagende responsparen verzamelt met menselijke annotaties voor meerdere criteria. Het introduceert verder drie nieuwe metrieken voor het systematisch beoordelen van pluralistische naleving, flexibiliteit bij het wisselen tussen criteria, en het vermogen om tegenstrijdige voorkeuren op criteriumniveau te herkennen. Uit een uitgebreide analyse van 25 LMM's blijkt dat 1) propriëtaire modellen nog steeds moeite hebben om consistente naleving van pluralistische criteria te handhaven—met name bij open-einde-evaluatie; 2) open-source modellen verder achterblijven in het flexibel volgen van diverse criteria; en 3) fijnafstemming met holistische oordeelsignalen de visuele verankering verbetert, maar niet generaliseert naar pluralistische, criteriumspecifieke oordeelsvorming. Aanvullende analyses naar fijnafstemming voor redeneervaardigheden, schaling tijdens testtijd, en consistentiegrenzen tussen open-source en propriëtaire modellen verkennen verder de beperkingen van huidige multimodale beoordelaars. Als baanbrekende studie legt Multi-Crit de basis voor het bouwen van betrouwbare en stuurbare multimodale AI-evaluatie.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.
PDF92December 1, 2025