MME-Unify: Un punto de referencia integral para modelos unificados de comprensión y generación multimodal

Resumen

Los puntos de referencia existentes para MLLM enfrentan desafíos significativos al evaluar los MLLM Unificados (U-MLLM) debido a: 1) la falta de puntos de referencia estandarizados para tareas tradicionales, lo que lleva a comparaciones inconsistentes; 2) la ausencia de puntos de referencia para la generación de modalidades mixtas, lo que no permite evaluar las capacidades de razonamiento multimodal. Presentamos un marco de evaluación integral diseñado para evaluar sistemáticamente los U-MLLM. Nuestro punto de referencia incluye: Evaluación Estandarizada de Tareas Tradicionales. Tomamos muestras de 12 conjuntos de datos, cubriendo 10 tareas con 30 subtareas, asegurando comparaciones consistentes y justas entre estudios. 2. Evaluación Unificada de Tareas. Introducimos cinco tareas novedosas que prueban el razonamiento multimodal, incluyendo edición de imágenes, preguntas de sentido común con generación de imágenes y razonamiento geométrico. 3. Evaluación Integral de Modelos. Evaluamos 12 U-MLLM líderes, como Janus-Pro, EMU3, VILA-U y Gemini2-flash, junto con modelos especializados en comprensión (por ejemplo, Claude-3.5-Sonnet) y generación (por ejemplo, DALL-E-3). Nuestros hallazgos revelan brechas sustanciales en el rendimiento de los U-MLLM existentes, destacando la necesidad de modelos más robustos capaces de manejar tareas de modalidades mixtas de manera efectiva. El código y los datos de evaluación se pueden encontrar en https://mme-unify.github.io/.

English

Existing MLLM benchmarks face significant challenges in evaluating Unified MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional tasks, leading to inconsistent comparisons; 2) absence of benchmarks for mixed-modality generation, which fails to assess multimodal reasoning capabilities. We present a comprehensive evaluation framework designed to systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30 subtasks, ensuring consistent and fair comparisons across studies." 2. Unified Task Assessment. We introduce five novel tasks testing multimodal reasoning, including image editing, commonsense QA with image generation, and geometric reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs, such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3). Our findings reveal substantial performance gaps in existing U-MLLMs, highlighting the need for more robust models capable of handling mixed-modality tasks effectively. The code and evaluation data can be found in https://mme-unify.github.io/.

MME-Unify: Un punto de referencia integral para modelos unificados de comprensión y generación multimodal

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

Resumen

Support