Julgue Qualquer Coisa: MLLM como Juiz em Qualquer Modalidade
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Autores: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Resumo
Avaliar modelos fundamentais generativos em tarefas de compreensão multimodal aberta (MMU) e geração multimodal (MMG) em diversas modalidades (por exemplo, imagens, áudio, vídeo) apresenta desafios significativos devido à complexidade das interações entre modalidades. Para isso, surgiu a ideia de utilizar Modelos de Linguagem Multimodal (MLLMs) como juízes automatizados, com resultados encorajadores na avaliação de tarefas de compreensão visão-linguagem. Indo além, este artigo estende o conceito de MLLM-como-Juiz para múltiplas modalidades de maneira unificada, introduzindo dois benchmarks, TaskAnything e JudgeAnything, para avaliar, respectivamente, o desempenho geral e as capacidades de julgamento dos MLLMs em tarefas de qualquer-para-qualquer modalidade. Especificamente, o TaskAnything avalia as capacidades de MMU e MMG em 15 categorias de qualquer-para-qualquer modalidade, empregando 1.500 consultas curadas a partir de benchmarks bem estabelecidos. Além disso, o JudgeAnything avalia as capacidades de julgamento de 5 modelos avançados (por exemplo, GPT-4o e Gemini-2.0-Flash) sob as perspectivas de Comparação de Pares e Avaliação de Pontuação, fornecendo um ambiente de teste padronizado que incorpora julgamentos humanos e rubricas detalhadas. Nossos experimentos extensivos revelam que, embora esses MLLMs mostrem promessa na avaliação de MMU (ou seja, alcançando uma média de 66,55% na configuração de Comparação de Pares e 42,79% na configuração de Avaliação de Pontuação), eles enfrentam desafios significativos com tarefas de MMG (ou seja, com média de apenas 53,37% na configuração de Comparação de Pares e 30,05% na configuração de Avaliação de Pontuação), expondo vieses entre modalidades e problemas de alucinação. Para abordar isso, apresentamos o OmniArena, uma plataforma automatizada para avaliar omni-modelos e modelos de recompensa multimodal. Nosso trabalho destaca a necessidade de protocolos de avaliação mais justos e de um alinhamento mais forte com as preferências humanas. O código-fonte e o conjunto de dados estão disponíveis publicamente em: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary