MME-Unify: Een Uitgebreide Benchmark voor Geïntegreerde Multimodale Begrips- en Generatiemodellen

Samenvatting

Bestaande MLLM-benchmarks worden geconfronteerd met aanzienlijke uitdagingen bij het evalueren van Unified MLLMs (U-MLLMs) vanwege: 1) het ontbreken van gestandaardiseerde benchmarks voor traditionele taken, wat leidt tot inconsistente vergelijkingen; 2) het ontbreken van benchmarks voor gemengde-modaliteit generatie, wat het beoordelen van multimodale redeneervaardigheden belemmert. Wij presenteren een uitgebreid evaluatiekader dat is ontworpen om U-MLLMs systematisch te beoordelen. Onze benchmark omvat: Gestandaardiseerde Evaluatie van Traditionele Taken. We nemen steekproeven uit 12 datasets, die 10 taken met 30 subtaken omvatten, om consistente en eerlijke vergelijkingen tussen studies te waarborgen. 2. Geïntegreerde Taakbeoordeling. We introduceren vijf nieuwe taken die multimodaal redeneren testen, waaronder beeldbewerking, commonsense QA met beeldgeneratie, en geometrisch redeneren. 3. Uitgebreide Modelbenchmarking. We evalueren 12 toonaangevende U-MLLMs, zoals Janus-Pro, EMU3, VILA-U, en Gemini2-flash, naast gespecialiseerde begripsmodellen (bijv. Claude-3.5-Sonnet) en generatiemodellen (bijv. DALL-E-3). Onze bevindingen onthullen aanzienlijke prestatiekloof in bestaande U-MLLMs, wat de noodzaak benadrukt voor robuustere modellen die effectief kunnen omgaan met gemengde-modaliteit taken. De code en evaluatiedata zijn te vinden op https://mme-unify.github.io/.

English

Existing MLLM benchmarks face significant challenges in evaluating Unified MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional tasks, leading to inconsistent comparisons; 2) absence of benchmarks for mixed-modality generation, which fails to assess multimodal reasoning capabilities. We present a comprehensive evaluation framework designed to systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30 subtasks, ensuring consistent and fair comparisons across studies." 2. Unified Task Assessment. We introduce five novel tasks testing multimodal reasoning, including image editing, commonsense QA with image generation, and geometric reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs, such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3). Our findings reveal substantial performance gaps in existing U-MLLMs, highlighting the need for more robust models capable of handling mixed-modality tasks effectively. The code and evaluation data can be found in https://mme-unify.github.io/.

MME-Unify: Een Uitgebreide Benchmark voor Geïntegreerde Multimodale Begrips- en Generatiemodellen

MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models

Samenvatting

Support