MMIG-Bench: 다중 모달 이미지 생성 모델의 포괄적이고 설명 가능한 평가를 위한 프레임워크
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
저자: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
초록
최근 GPT-4o, Gemini 2.0 Flash, Gemini 2.5 Pro와 같은 다중 모달 이미지 생성기는 복잡한 지시를 따르고, 이미지를 편집하며, 개념 일관성을 유지하는 데 뛰어난 성능을 보여주고 있다. 그러나 이러한 모델들은 여전히 분리된 도구로 평가되고 있다: 다중 모달 조건을 고려하지 않는 텍스트-이미지(T2I) 벤치마크와 구성적 의미와 일반 지식을 간과한 맞춤형 이미지 생성 벤치마크가 그것이다. 우리는 이러한 작업을 통합하기 위해 MMIG-Bench라는 포괄적인 다중 모달 이미지 생성 벤치마크를 제안한다. 이 벤치마크는 인간, 동물, 물체, 예술 스타일 등 380개의 주제에 걸쳐 4,850개의 풍부하게 주석이 달린 텍스트 프롬프트와 1,750개의 다중 뷰 참조 이미지를 짝지어 제공한다. MMIG-Bench는 세 단계의 평가 프레임워크를 갖추고 있다: (1) 시각적 결함과 객체의 정체성 보존을 위한 저수준 메트릭; (2) 세밀한 프롬프트-이미지 정렬을 제공하고 인간 판단과 강한 상관관계를 보이는 VQA 기반의 중간 수준 메트릭인 새로운 Aspect Matching Score(AMS); 그리고 (3) 미학과 인간 선호도를 위한 고수준 메트릭. MMIG-Bench를 사용하여 우리는 Gemini 2.5 Pro, FLUX, DreamBooth, IP-Adapter를 포함한 17개의 최신 모델을 벤치마크하고, 32,000개의 인간 평가를 통해 우리의 메트릭을 검증하여 아키텍처와 데이터 설계에 대한 깊은 통찰을 얻었다. 우리는 데이터셋과 평가 코드를 공개하여 엄격하고 통합된 평가를 촉진하고, 다중 모달 이미지 생성의 미래 혁신을 가속화할 것이다.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.Summary
AI-Generated Summary