ChatPaper.aiChatPaper

Juzgar Cualquier Cosa: MLLM como Juez a través de Cualquier Modalidad

Judge Anything: MLLM as a Judge Across Any Modality

March 21, 2025
Autores: Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu
cs.AI

Resumen

Evaluar modelos fundacionales generativos en tareas de comprensión multimodal abierta (MMU) y generación multimodal (MMG) a través de diversas modalidades (por ejemplo, imágenes, audio, video) presenta desafíos significativos debido a la complejidad de las interacciones entre modalidades. Con este fin, ha surgido la idea de utilizar modelos de lenguaje multimodal (MLLMs) como jueces automatizados, obteniendo resultados alentadores en la evaluación de tareas de comprensión visión-lenguaje. Avanzando más, este artículo extiende el enfoque de MLLM-como-juez a través de modalidades de manera unificada, introduciendo dos benchmarks, TaskAnything y JudgeAnything, para evaluar respectivamente el rendimiento general y las capacidades de juicio de los MLLMs en tareas de cualquier-a-cualquier modalidad. Específicamente, TaskAnything evalúa las capacidades de MMU y MMG en 15 categorías de cualquier-a-cualquier modalidad, empleando 1,500 consultas seleccionadas de benchmarks bien establecidos. Además, JudgeAnything evalúa las capacidades de juicio de 5 modelos avanzados (por ejemplo, GPT-4o y Gemini-2.0-Flash) desde las perspectivas de Comparación por Pares y Evaluación de Puntajes, proporcionando un entorno de prueba estandarizado que incorpora juicios humanos y rúbricas detalladas. Nuestros extensos experimentos revelan que, aunque estos MLLMs muestran potencial en la evaluación de MMU (es decir, alcanzando un promedio de 66.55% en el escenario de Comparación por Pares y 42.79% en el escenario de Evaluación de Puntajes), enfrentan desafíos significativos con las tareas de MMG (es decir, promediando solo 53.37% en Comparación por Pares y 30.05% en Evaluación de Puntajes), exponiendo sesgos entre modalidades y problemas de alucinación. Para abordar esto, presentamos OmniArena, una plataforma automatizada para evaluar modelos omni y modelos de recompensa multimodal. Nuestro trabajo destaca la necesidad de protocolos de evaluación más justos y una mayor alineación con las preferencias humanas. El código fuente y el conjunto de datos están disponibles públicamente en: https://urrealhero.github.io/judgeanythingweb/.
English
Evaluating generative foundation models on open-ended multimodal understanding (MMU) and generation (MMG) tasks across diverse modalities (e.g., images, audio, video) poses significant challenges due to the complexity of cross-modal interactions. To this end, the idea of utilizing Multimodal LLMs (MLLMs) as automated judges has emerged, with encouraging results in assessing vision-language understanding tasks. Moving further, this paper extends MLLM-as-a-Judge across modalities to a unified manner by introducing two benchmarks, TaskAnything and JudgeAnything, to respectively evaluate the overall performance and judging capabilities of MLLMs across any-to-any modality tasks. Specifically, TaskAnything evaluates the MMU and MMG capabilities across 15 any-to-any modality categories, employing 1,500 queries curated from well-established benchmarks. Furthermore, JudgeAnything evaluates the judging capabilities of 5 advanced (e.g., GPT-4o and Gemini-2.0-Flash) from the perspectives of Pair Comparison and Score Evaluation, providing a standardized testbed that incorporates human judgments and detailed rubrics. Our extensive experiments reveal that while these MLLMs show promise in assessing MMU (i.e., achieving an average of 66.55% in Pair Comparison setting and 42.79% in Score Evaluation setting), they encounter significant challenges with MMG tasks (i.e., averaging only 53.37% in Pair Comparison setting and 30.05% in Score Evaluation setting), exposing cross-modality biases and hallucination issues. To address this, we present OmniArena, an automated platform for evaluating omni-models and multimodal reward models. Our work highlights the need for fairer evaluation protocols and stronger alignment with human preferences. The source code and dataset are publicly available at: https://urrealhero.github.io/judgeanythingweb/.

Summary

AI-Generated Summary

PDF202March 25, 2025