MME-Unify : Un benchmark complet pour les modèles unifiés de compréhension et de génération multimodales
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
April 4, 2025
Auteurs: Wulin Xie, Yi-Fan Zhang, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
Résumé
Les benchmarks existants pour les MLLM (Modèles de Langage Multimodaux) rencontrent des défis significatifs dans l'évaluation des MLLM Unifiés (U-MLLM) en raison de : 1) l'absence de benchmarks standardisés pour les tâches traditionnelles, entraînant des comparaisons incohérentes ; 2) le manque de benchmarks pour la génération multimodale mixte, ce qui ne permet pas d'évaluer les capacités de raisonnement multimodal. Nous présentons un cadre d'évaluation complet conçu pour évaluer systématiquement les U-MLLM. Notre benchmark comprend : 1. Évaluation Standardisée des Tâches Traditionnelles. Nous échantillonnons à partir de 12 ensembles de données, couvrant 10 tâches avec 30 sous-tâches, garantissant des comparaisons cohérentes et équitables entre les études. 2. Évaluation Unifiée des Tâches. Nous introduisons cinq nouvelles tâches testant le raisonnement multimodal, incluant l'édition d'images, les questions-réponses de bon sens avec génération d'images, et le raisonnement géométrique. 3. Benchmarking Complet des Modèles. Nous évaluons 12 U-MLLM leaders, tels que Janus-Pro, EMU3, VILA-U, et Gemini2-flash, ainsi que des modèles spécialisés dans la compréhension (par exemple, Claude-3.5-Sonnet) et la génération (par exemple, DALL-E-3). Nos résultats révèlent des écarts de performance substantiels parmi les U-MLLM existants, soulignant la nécessité de modèles plus robustes capables de gérer efficacement les tâches multimodales mixtes. Le code et les données d'évaluation sont disponibles sur https://mme-unify.github.io/.
English
Existing MLLM benchmarks face significant challenges in evaluating Unified
MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional
tasks, leading to inconsistent comparisons; 2) absence of benchmarks for
mixed-modality generation, which fails to assess multimodal reasoning
capabilities. We present a comprehensive evaluation framework designed to
systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional
Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30
subtasks, ensuring consistent and fair comparisons across studies." 2. Unified
Task Assessment. We introduce five novel tasks testing multimodal reasoning,
including image editing, commonsense QA with image generation, and geometric
reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs,
such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized
understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3).
Our findings reveal substantial performance gaps in existing U-MLLMs,
highlighting the need for more robust models capable of handling mixed-modality
tasks effectively. The code and evaluation data can be found in
https://mme-unify.github.io/.Summary
AI-Generated Summary