MME-Unify: 통합 멀티모달 이해 및 생성 모델을 위한 포괄적 벤치마크
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
April 4, 2025
저자: Wulin Xie, Yi-Fan Zhang, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
초록
기존의 MLLM(Multimodal Large Language Model) 벤치마크는 통합 MLLM(U-MLLM)을 평가하는 데 있어 다음과 같은 중대한 문제점에 직면해 있습니다: 1) 전통적인 작업에 대한 표준화된 벤치마크가 부족하여 일관성 없는 비교가 이루어지고, 2) 혼합 모달리티 생성에 대한 벤치마크가 없어 다중 모달리티 추론 능력을 평가할 수 없다는 점입니다. 우리는 이러한 문제를 해결하기 위해 U-MLLM을 체계적으로 평가할 수 있는 포괄적인 평가 프레임워크를 제시합니다. 우리의 벤치마크는 다음과 같은 세 가지 주요 요소로 구성됩니다: 1. 표준화된 전통 작업 평가. 10개 작업과 30개 하위 작업을 포함하는 12개 데이터셋에서 샘플링하여 연구 간 일관적이고 공정한 비교를 보장합니다. 2. 통합 작업 평가. 이미지 편집, 이미지 생성이 포함된 상식 QA, 기하학적 추론 등 다중 모달리티 추론을 테스트하는 5가지 새로운 작업을 도입합니다. 3. 포괄적인 모델 벤치마킹. Janus-Pro, EMU3, VILA-U, Gemini2-flash 등 12개의 주요 U-MLLM과 전문화된 이해 모델(예: Claude-3.5-Sonnet) 및 생성 모델(예: DALL-E-3)을 평가합니다. 우리의 연구 결과는 기존 U-MLLM들이 혼합 모달리티 작업을 효과적으로 처리할 수 있는 더 강력한 모델의 필요성을 강조하며, 이들 간의 상당한 성능 격차를 보여줍니다. 코드와 평가 데이터는 https://mme-unify.github.io/에서 확인할 수 있습니다.
English
Existing MLLM benchmarks face significant challenges in evaluating Unified
MLLMs (U-MLLMs) due to: 1) lack of standardized benchmarks for traditional
tasks, leading to inconsistent comparisons; 2) absence of benchmarks for
mixed-modality generation, which fails to assess multimodal reasoning
capabilities. We present a comprehensive evaluation framework designed to
systematically assess U-MLLMs. Our benchmark includes: Standardized Traditional
Task Evaluation. We sample from 12 datasets, covering 10 tasks with 30
subtasks, ensuring consistent and fair comparisons across studies." 2. Unified
Task Assessment. We introduce five novel tasks testing multimodal reasoning,
including image editing, commonsense QA with image generation, and geometric
reasoning. 3. Comprehensive Model Benchmarking. We evaluate 12 leading U-MLLMs,
such as Janus-Pro, EMU3, VILA-U, and Gemini2-flash, alongside specialized
understanding (e.g., Claude-3.5-Sonnet) and generation models (e.g., DALL-E-3).
Our findings reveal substantial performance gaps in existing U-MLLMs,
highlighting the need for more robust models capable of handling mixed-modality
tasks effectively. The code and evaluation data can be found in
https://mme-unify.github.io/.Summary
AI-Generated Summary