Juzgar Cualquier Cosa: MLLM como Juez a través de Cualquier Modalidad
Judge Anything: MLLM as a Judge Across Any Modality
March 21, 2025
Autores: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI
Resumen
Evaluar modelos fundacionales generativos en tareas de comprensión multimodal abierta (MMU) y generación multimodal (MMG) a través de diversas modalidades (por ejemplo, imágenes, audio, video) presenta desafíos significativos debido a la complejidad de las interacciones entre modalidades. Con este fin, ha surgido la idea de utilizar modelos de lenguaje multimodal (MLLMs) como jueces automatizados, obteniendo resultados alentadores en la evaluación de tareas de comprensión visión-lenguaje. Avanzando más, este artículo extiende el enfoque de MLLM-como-juez a través de modalidades de manera unificada, introduciendo dos benchmarks, TaskAnything y JudgeAnything, para evaluar respectivamente el rendimiento general y las capacidades de juicio de los MLLMs en tareas de cualquier-a-cualquier modalidad. Específicamente, TaskAnything evalúa las capacidades de MMU y MMG en 15 categorías de cualquier-a-cualquier modalidad, empleando 1,500 consultas seleccionadas de benchmarks bien establecidos. Además, JudgeAnything evalúa las capacidades de juicio de 5 modelos avanzados (por ejemplo, GPT-4o y Gemini-2.0-Flash) desde las perspectivas de Comparación por Pares y Evaluación de Puntajes, proporcionando un entorno de prueba estandarizado que incorpora juicios humanos y rúbricas detalladas. Nuestros extensos experimentos revelan que, aunque estos MLLMs muestran potencial en la evaluación de MMU (es decir, alcanzando un promedio de 66.55% en el escenario de Comparación por Pares y 42.79% en el escenario de Evaluación de Puntajes), enfrentan desafíos significativos con las tareas de MMG (es decir, promediando solo 53.37% en Comparación por Pares y 30.05% en Evaluación de Puntajes), exponiendo sesgos entre modalidades y problemas de alucinación. Para abordar esto, presentamos OmniArena, una plataforma automatizada para evaluar modelos omni y modelos de recompensa multimodal. Nuestro trabajo destaca la necesidad de protocolos de evaluación más justos y una mayor alineación con las preferencias humanas. El código fuente y el conjunto de datos están disponibles públicamente en: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal
understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g.,
images, audio, video) poses significant challenges due to the complexity of
cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs
(MLLMs) as automated judges has emerged, with encouraging results in assessing
vision-language understanding tasks. Moving further, this paper extends
MLLM-as-a-Judge across modalities to a unified manner by introducing two
benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the
overall performance and judging capabilities of MLLMs across any-to-any
modality tasks. Specifically, TaskAnything evaluates the MMU and MMG
capabilities across 15 any-to-any modality categories, employing 1,500 queries
curated from well-established benchmarks. Furthermore, JudgeAnything evaluates
the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from
the perspectives of Pair Comparison and Score Evaluation, providing a
standardized testbed that incorporates human judgments and detailed rubrics.
Our extensive experiments reveal that while these MLLMs show promise in
assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting
and 42.79% in Score Evaluation setting), they encounter significant challenges
with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and
30.05% in Score Evaluation setting), exposing cross-modality biases and
hallucination issues. To address this, we present OmniArena, an automated
platform for evaluating omni-models and multimodal reward models. Our work
highlights the need for fairer evaluation protocols and stronger alignment with
human preferences. The source code and dataset are publicly available at:
https://urrealhero.github.io/judgeanythingweb/.Summary
AI-Generated Summary