MME-Unify: Een Uitgebreide Benchmark voor Geïntegreerde Multimodale Begrips- en Generatiemodellen
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
April 4, 2025
Auteurs: Wulin Xie, Yi-Fan Zhang, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
Samenvatting
Bestaande MLLM-benchmarks worden geconfronteerd met aanzienlijke uitdagingen bij het evalueren van Unified MLLMs (U-MLLMs) vanwege: 1) het ontbreken van gestandaardiseerde benchmarks voor traditionele taken, wat leidt tot inconsistente vergelijkingen; 2) het ontbreken van benchmarks voor gemengde-modaliteit generatie, wat het beoordelen van multimodale redeneervaardigheden belemmert. Wij presenteren een uitgebreid evaluatiekader dat is ontworpen om U-MLLMs systematisch te beoordelen. Onze benchmark omvat: Gestandaardiseerde Evaluatie van Traditionele Taken. We nemen steekproeven uit 12 datasets, die 10 taken met 30 subtaken omvatten, om consistente en eerlijke vergelijkingen tussen studies te waarborgen. 2. Geïntegreerde Taakbeoordeling. We introduceren vijf nieuwe taken die multimodaal redeneren testen, waaronder beeldbewerking, commonsense QA met beeldgeneratie, en geometrisch redeneren. 3. Uitgebreide Modelbenchmarking. We evalueren 12 toonaangevende U-MLLMs, zoals Janus-Pro, EMU3, VILA-U, en Gemini2-flash, naast gespecialiseerde begripsmodellen (bijv. Claude-3.5-Sonnet) en generatiemodellen (bijv. DALL-E-3). Onze bevindingen onthullen aanzienlijke prestatiekloof in bestaande U-MLLMs, wat de noodzaak benadrukt voor robuustere modellen die effectief kunnen omgaan met gemengde-modaliteit taken. De code en evaluatiedata zijn te vinden op https://mme-unify.github.io/.
English
Existing MLLM benchmarks face significant challenges in evaluating Unified
MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional
tasks, leading to inconsistent comparisons; 2) absence of benchmarks for
mixed-modality generation, which fails to assess multimodal reasoning
capabilities. We present a comprehensive evaluation framework designed to
systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional
Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30
subtasks, ensuring consistent and fair comparisons across studies." 2. Unified
Task Assessment. We introduce five novel tasks testing multimodal reasoning,
including image editing, commonsense QA with image generation, and geometric
reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs,
such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized
understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3).
Our findings reveal substantial performance gaps in existing U-MLLMs,
highlighting the need for more robust models capable of handling mixed-modality
tasks effectively. The code and evaluation data can be found in
https://mme-unify.github.io/.Summary
AI-Generated Summary