Beoordeel Alles: MLLM als Beoordelaar voor Elke Modaliteit
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Auteurs: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Samenvatting
Het evalueren van generatieve basis modellen op open-eindige multimodale begrips- (MMU) en generatie (MMG) taken over diverse modaliteiten (bijv., afbeeldingen, audio, video) vormt aanzienlijke uitdagingen vanwege de complexiteit van kruismodale interacties. Hiertoe is het idee ontstaan om Multimodale LLM's (MLLMs) als geautomatiseerde beoordelaars te gebruiken, met bemoedigende resultaten bij het beoordelen van visueel-taalkundige begripstaken. Dit artikel gaat verder door MLLM-as-a-Judge uit te breiden over modaliteiten op een uniforme manier door twee benchmarks te introduceren, TaskAnything en JudgeAnything, om respectievelijk de algehele prestaties en beoordelingscapaciteiten van MLLMs over any-to-any modaliteit taken te evalueren. Specifiek evalueert TaskAnything de MMU- en MMG-capaciteiten over 15 any-to-any modaliteitscategorieën, waarbij 1.500 queries worden gebruikt die zijn samengesteld uit gevestigde benchmarks. Verder evalueert JudgeAnything de beoordelingscapaciteiten van 5 geavanceerde modellen (bijv., GPT-4o en Gemini-2.0-Flash) vanuit het perspectief van Paarsgewijze Vergelijking en Score Evaluatie, en biedt een gestandaardiseerde testomgeving die menselijke oordelen en gedetailleerde rubrieken omvat. Onze uitgebreide experimenten tonen aan dat hoewel deze MLLMs veelbelovend zijn in het beoordelen van MMU (d.w.z., een gemiddelde van 66,55% behalen in de Paarsgewijze Vergelijking setting en 42,79% in de Score Evaluatie setting), ze aanzienlijke uitdagingen ondervinden bij MMG-taken (d.w.z., gemiddeld slechts 53,37% in de Paarsgewijze Vergelijking setting en 30,05% in de Score Evaluatie setting), wat kruismodale vooroordelen en hallucinatieproblemen blootlegt. Om dit aan te pakken, presenteren we OmniArena, een geautomatiseerd platform voor het evalueren van omni-modellen en multimodale beloningsmodellen. Ons werk benadrukt de noodzaak van eerlijkere evaluatieprotocollen en een sterkere afstemming op menselijke voorkeuren. De broncode en dataset zijn publiekelijk beschikbaar op: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary