Multi-Crit: Evaluación de Jueces Multimodales en el Seguimiento de Criterios Pluralistas
Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
November 26, 2025
Autores: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) son cada vez más adoptados como evaluadores en sistemas de evaluación multimodal debido a su sólida capacidad para seguir instrucciones y su consistencia con las preferencias humanas. Sin embargo, su habilidad para seguir criterios de evaluación diversos y granulares sigue estando poco explorada. Desarrollamos Multi-Crit, un benchmark para evaluar a los evaluadores multimodales en su capacidad para seguir criterios pluralistas y producir juicios fiables a nivel de criterio. Abarcando tanto tareas de generación abierta como de razonamiento verificable, Multi-Crit se construye mediante un riguroso pipeline de curación de datos que recopila pares de respuestas desafiantes con anotaciones humanas multicriterio. Además, introduce tres métricas novedosas para evaluar sistemáticamente la adherencia pluralista, la flexibilidad en el cambio de criterios y la capacidad para reconocer conflictos de preferencia a nivel de criterio. Un análisis exhaustivo de 25 LMMs revela que 1) los modelos propietarios aún tienen dificultades para mantener una adherencia consistente a criterios pluralistas, especialmente en evaluación de generación abierta; 2) los modelos de código abierto están aún más rezagados en seguir flexiblemente criterios diversos; y 3) el ajuste fino como crítico con señales de juicio holístico mejora la fundamentación visual pero no logra generalizarse al juicio pluralista a nivel de criterio. Análisis adicionales sobre el ajuste fino de razonamiento, el escalado en tiempo de prueba y la consistencia en los límites entre modelos de código abierto y propietarios exploran aún más los límites de los evaluadores multimodales actuales. Como estudio pionero, Multi-Crit sienta las bases para construir una evaluación de IA multimodal fiable y dirigible.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.