ChatPaper.aiChatPaper

Judge Anything : MLLM comme juge à travers toute modalité

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Auteurs: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Résumé

L'évaluation des modèles génératifs de base sur des tâches de compréhension (MMU) et de génération multimodales (MMG) ouvertes, couvrant diverses modalités (par exemple, images, audio, vidéo), présente des défis significatifs en raison de la complexité des interactions intermodales. Dans cette optique, l'idée d'utiliser des modèles de langage multimodaux (MLLMs) comme juges automatisés a émergé, avec des résultats encourageants dans l'évaluation des tâches de compréhension vision-langage. Allant plus loin, cet article étend l'approche MLLM-comme-juge à travers les modalités de manière unifiée en introduisant deux benchmarks, TaskAnything et JudgeAnything, pour évaluer respectivement la performance globale et les capacités de jugement des MLLMs sur des tâches intermodales de tout-à-tout. Plus précisément, TaskAnything évalue les capacités MMU et MMG à travers 15 catégories de modalités tout-à-tout, en utilisant 1 500 requêtes sélectionnées à partir de benchmarks bien établis. De plus, JudgeAnything évalue les capacités de jugement de 5 modèles avancés (par exemple, GPT-4o et Gemini-2.0-Flash) sous les angles de la comparaison par paires et de l'évaluation par scores, fournissant un environnement de test standardisé qui intègre les jugements humains et des grilles d'évaluation détaillées. Nos expériences approfondies révèlent que, bien que ces MLLMs montrent des promesses dans l'évaluation de la MMU (c'est-à-dire atteignant une moyenne de 66,55 % dans le cadre de la comparaison par paires et 42,79 % dans celui de l'évaluation par scores), ils rencontrent des difficultés significatives avec les tâches MMG (c'est-à-dire ne dépassant en moyenne que 53,37 % dans le cadre de la comparaison par paires et 30,05 % dans celui de l'évaluation par scores), exposant des biais intermodaux et des problèmes d'hallucination. Pour y remédier, nous présentons OmniArena, une plateforme automatisée pour l'évaluation des modèles omni et des modèles de récompense multimodaux. Notre travail souligne la nécessité de protocoles d'évaluation plus équitables et d'un meilleur alignement avec les préférences humaines. Le code source et le jeu de données sont disponibles publiquement à l'adresse : https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF202March 25, 2025