ChatPaper.aiChatPaper

Beoordeel Alles: MLLM als Beoordelaar voor Elke Modaliteit

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Auteurs: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Samenvatting

Het evalueren van generatieve basis modellen op open-eindige multimodale begrips- (MMU) en generatie (MMG) taken over diverse modaliteiten (bijv., afbeeldingen, audio, video) vormt aanzienlijke uitdagingen vanwege de complexiteit van kruismodale interacties. Hiertoe is het idee ontstaan om Multimodale LLM's (MLLMs) als geautomatiseerde beoordelaars te gebruiken, met bemoedigende resultaten bij het beoordelen van visueel-taalkundige begripstaken. Dit artikel gaat verder door MLLM-as-a-Judge uit te breiden over modaliteiten op een uniforme manier door twee benchmarks te introduceren, TaskAnything en JudgeAnything, om respectievelijk de algehele prestaties en beoordelingscapaciteiten van MLLMs over any-to-any modaliteit taken te evalueren. Specifiek evalueert TaskAnything de MMU- en MMG-capaciteiten over 15 any-to-any modaliteitscategorieën, waarbij 1.500 queries worden gebruikt die zijn samengesteld uit gevestigde benchmarks. Verder evalueert JudgeAnything de beoordelingscapaciteiten van 5 geavanceerde modellen (bijv., GPT-4o en Gemini-2.0-Flash) vanuit het perspectief van Paarsgewijze Vergelijking en Score Evaluatie, en biedt een gestandaardiseerde testomgeving die menselijke oordelen en gedetailleerde rubrieken omvat. Onze uitgebreide experimenten tonen aan dat hoewel deze MLLMs veelbelovend zijn in het beoordelen van MMU (d.w.z., een gemiddelde van 66,55% behalen in de Paarsgewijze Vergelijking setting en 42,79% in de Score Evaluatie setting), ze aanzienlijke uitdagingen ondervinden bij MMG-taken (d.w.z., gemiddeld slechts 53,37% in de Paarsgewijze Vergelijking setting en 30,05% in de Score Evaluatie setting), wat kruismodale vooroordelen en hallucinatieproblemen blootlegt. Om dit aan te pakken, presenteren we OmniArena, een geautomatiseerd platform voor het evalueren van omni-modellen en multimodale beloningsmodellen. Ons werk benadrukt de noodzaak van eerlijkere evaluatieprotocollen en een sterkere afstemming op menselijke voorkeuren. De broncode en dataset zijn publiekelijk beschikbaar op: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF202March 25, 2025