ChatPaper.aiChatPaper

Julgue Qualquer Coisa: MLLM como Juiz em Qualquer Modalidade

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Autores: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Resumo

Avaliar modelos fundamentais generativos em tarefas de compreensão multimodal aberta (MMU) e geração multimodal (MMG) em diversas modalidades (por exemplo, imagens, áudio, vídeo) apresenta desafios significativos devido à complexidade das interações entre modalidades. Para isso, surgiu a ideia de utilizar Modelos de Linguagem Multimodal (MLLMs) como juízes automatizados, com resultados encorajadores na avaliação de tarefas de compreensão visão-linguagem. Indo além, este artigo estende o conceito de MLLM-como-Juiz para múltiplas modalidades de maneira unificada, introduzindo dois benchmarks, TaskAnything e JudgeAnything, para avaliar, respectivamente, o desempenho geral e as capacidades de julgamento dos MLLMs em tarefas de qualquer-para-qualquer modalidade. Especificamente, o TaskAnything avalia as capacidades de MMU e MMG em 15 categorias de qualquer-para-qualquer modalidade, empregando 1.500 consultas curadas a partir de benchmarks bem estabelecidos. Além disso, o JudgeAnything avalia as capacidades de julgamento de 5 modelos avançados (por exemplo, GPT-4o e Gemini-2.0-Flash) sob as perspectivas de Comparação de Pares e Avaliação de Pontuação, fornecendo um ambiente de teste padronizado que incorpora julgamentos humanos e rubricas detalhadas. Nossos experimentos extensivos revelam que, embora esses MLLMs mostrem promessa na avaliação de MMU (ou seja, alcançando uma média de 66,55% na configuração de Comparação de Pares e 42,79% na configuração de Avaliação de Pontuação), eles enfrentam desafios significativos com tarefas de MMG (ou seja, com média de apenas 53,37% na configuração de Comparação de Pares e 30,05% na configuração de Avaliação de Pontuação), expondo vieses entre modalidades e problemas de alucinação. Para abordar isso, apresentamos o OmniArena, uma plataforma automatizada para avaliar omni-modelos e modelos de recompensa multimodal. Nosso trabalho destaca a necessidade de protocolos de avaliação mais justos e de um alinhamento mais forte com as preferências humanas. O código-fonte e o conjunto de dados estão disponíveis publicamente em: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF202March 25, 2025