ChatPaper.aiChatPaper

Multi-Crit: Benchmarking multimodaler Bewertungssysteme anhand pluralistischer Kriterienorientierung

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

November 26, 2025
papers.authors: Tianyi Xiong, Yi Ge, Ming Li, Zuolong Zhang, Pranav Kulkarni, Kaishen Wang, Qi He, Zeying Zhu, Chenxi Liu, Ruibo Chen, Tong Zheng, Yanshuo Chen, Xiyao Wang, Renrui Zhang, Wenhu Chen, Heng Huang
cs.AI

papers.abstract

Große multimodale Modelle (LMMs) werden aufgrund ihrer starken Befolgung von Instruktionen und ihrer Übereinstimmung mit menschlichen Präferenzen zunehmend als Bewerter in multimodalen Evaluierungssystemen eingesetzt. Ihre Fähigkeit, diverse, feinkörnige Bewertungskriterien zu befolgen, bleibt jedoch unzureichend erforscht. Wir entwickeln Multi-Crit, einen Benchmark zur Bewertung multimodaler Bewerter hinsichtlich ihrer Fähigkeit, pluralistische Kriterien zu befolgen und zuverlässige kriterienbezogene Urteile zu produzieren. Multi-Crit, das sowohl offene Generierungs- als auch überprüfbare Reasoning-Aufgaben abdeckt, wird durch eine rigorose Datenkuratierungspipeline erstellt, die anspruchsvolle Antwortpaare mit multikriteriellen menschlichen Annotationen sammelt. Es führt zudem drei neuartige Metriken ein, um systematisch die Einhaltung pluralistischer Kriterien, die Flexibilität beim Kriterienwechsel und die Fähigkeit zur Erkennung von Präferenzkonflikten auf Kriterienebene zu bewerten. Eine umfassende Analyse von 25 LMMs zeigt, dass 1) proprietäre Modelle nach wie vor Schwierigkeiten haben, eine konsistente Einhaltung pluralistischer Kriterien aufrechtzuerhalten – insbesondere bei der offenen Evaluierung; 2) Open-Source-Modelle bei der flexiblen Befolgung diverser Kriterien weiter zurückliegen; und 3) Feintuning von Kritikern mit holistischen Urteilssignalen die visuelle Verankerung verbessert, sich jedoch nicht auf pluralistische, kriterienbezogene Urteile verallgemeinern lässt. Zusätzliche Analysen zu Reasoning-Feintuning, Skalierung zur Testzeit und Grenzkonsistenz zwischen Open-Source- und proprietären Modellen untersuchen weiter die Grenzen aktueller multimodaler Bewerter. Als wegweisende Studie legt Multi-Crit die Grundlage für den Aufbau einer zuverlässigen und steuerbaren KI-Evaluierung für multimodale Systeme.
English
Large multimodal models (LMMs) are increasingly adopted as judges in multimodal evaluation systems due to their strong instruction following and consistency with human preferences. However, their ability to follow diverse, fine-grained evaluation criteria remains underexplored. We develop Multi-Crit, a benchmark for evaluating multimodal judges on their capacity to follow pluralistic criteria and produce reliable criterion-level judgments. Covering both open-ended generation and verifiable reasoning tasks, Multi-Crit is built through a rigorous data curation pipeline that gathers challenging response pairs with multi-criterion human annotations. It further introduces three novel metrics for systematically assessing pluralistic adherence, criterion-switching flexibility, and the ability to recognize criterion-level preference conflicts. Comprehensive analysis of 25 LMMs reveals that 1) proprietary models still struggle to maintain consistent adherence to pluralistic criteria--especially in open-ended evaluation; 2) open-source models lag further behind in flexibly following diverse criteria; and 3) critic fine-tuning with holistic judgment signals enhances visual grounding but fails to generalize to pluralistic criterion-level judgment. Additional analyses on reasoning fine-tuning, test-time scaling, and boundary consistency between open-source and proprietary models further probe the limits of current multimodal judges. As a pioneering study, Multi-Crit lays the foundation for building reliable and steerable multimodal AI evaluation.
PDF92December 1, 2025