MME-Unify: Un punto de referencia integral para modelos unificados de comprensión y generación multimodal
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
April 4, 2025
Autores: Wulin Xie, Yi-Fan Zhang, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
Resumen
Los puntos de referencia existentes para MLLM enfrentan desafíos significativos al evaluar los MLLM Unificados (U-MLLM) debido a: 1) la falta de puntos de referencia estandarizados para tareas tradicionales, lo que lleva a comparaciones inconsistentes; 2) la ausencia de puntos de referencia para la generación de modalidades mixtas, lo que no permite evaluar las capacidades de razonamiento multimodal. Presentamos un marco de evaluación integral diseñado para evaluar sistemáticamente los U-MLLM. Nuestro punto de referencia incluye: Evaluación Estandarizada de Tareas Tradicionales. Tomamos muestras de 12 conjuntos de datos, cubriendo 10 tareas con 30 subtareas, asegurando comparaciones consistentes y justas entre estudios. 2. Evaluación Unificada de Tareas. Introducimos cinco tareas novedosas que prueban el razonamiento multimodal, incluyendo edición de imágenes, preguntas de sentido común con generación de imágenes y razonamiento geométrico. 3. Evaluación Integral de Modelos. Evaluamos 12 U-MLLM líderes, como Janus-Pro, EMU3, VILA-U y Gemini2-flash, junto con modelos especializados en comprensión (por ejemplo, Claude-3.5-Sonnet) y generación (por ejemplo, DALL-E-3). Nuestros hallazgos revelan brechas sustanciales en el rendimiento de los U-MLLM existentes, destacando la necesidad de modelos más robustos capaces de manejar tareas de modalidades mixtas de manera efectiva. El código y los datos de evaluación se pueden encontrar en https://mme-unify.github.io/.
English
Existing MLLM benchmarks face significant challenges in evaluating Unified
MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional
tasks, leading to inconsistent comparisons; 2) absence of benchmarks for
mixed-modality generation, which fails to assess multimodal reasoning
capabilities. We present a comprehensive evaluation framework designed to
systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional
Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30
subtasks, ensuring consistent and fair comparisons across studies." 2. Unified
Task Assessment. We introduce five novel tasks testing multimodal reasoning,
including image editing, commonsense QA with image generation, and geometric
reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs,
such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized
understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3).
Our findings reveal substantial performance gaps in existing U-MLLMs,
highlighting the need for more robust models capable of handling mixed-modality
tasks effectively. The code and evaluation data can be found in
https://mme-unify.github.io/.Summary
AI-Generated Summary