Judge Anything : MLLM comme juge à travers toute modalité
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Auteurs: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Résumé
L'évaluation des modèles génératifs de base sur des tâches de compréhension (MMU) et de génération multimodales (MMG) ouvertes, couvrant diverses modalités (par exemple, images, audio, vidéo), présente des défis significatifs en raison de la complexité des interactions intermodales. Dans cette optique, l'idée d'utiliser des modèles de langage multimodaux (MLLMs) comme juges automatisés a émergé, avec des résultats encourageants dans l'évaluation des tâches de compréhension vision-langage. Allant plus loin, cet article étend l'approche MLLM-comme-juge à travers les modalités de manière unifiée en introduisant deux benchmarks, TaskAnything et JudgeAnything, pour évaluer respectivement la performance globale et les capacités de jugement des MLLMs sur des tâches intermodales de tout-à-tout. Plus précisément, TaskAnything évalue les capacités MMU et MMG à travers 15 catégories de modalités tout-à-tout, en utilisant 1 500 requêtes sélectionnées à partir de benchmarks bien établis. De plus, JudgeAnything évalue les capacités de jugement de 5 modèles avancés (par exemple, GPT-4o et Gemini-2.0-Flash) sous les angles de la comparaison par paires et de l'évaluation par scores, fournissant un environnement de test standardisé qui intègre les jugements humains et des grilles d'évaluation détaillées. Nos expériences approfondies révèlent que, bien que ces MLLMs montrent des promesses dans l'évaluation de la MMU (c'est-à-dire atteignant une moyenne de 66,55 % dans le cadre de la comparaison par paires et 42,79 % dans celui de l'évaluation par scores), ils rencontrent des difficultés significatives avec les tâches MMG (c'est-à-dire ne dépassant en moyenne que 53,37 % dans le cadre de la comparaison par paires et 30,05 % dans celui de l'évaluation par scores), exposant des biais intermodaux et des problèmes d'hallucination. Pour y remédier, nous présentons OmniArena, une plateforme automatisée pour l'évaluation des modèles omni et des modèles de récompense multimodaux. Notre travail souligne la nécessité de protocoles d'évaluation plus équitables et d'un meilleur alignement avec les préférences humaines. Le code source et le jeu de données sont disponibles publiquement à l'adresse : https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary