MMIG-Bench: Naar een uitgebreide en verklaarbare evaluatie van multi-modale beeldgeneratiemodellen
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Auteurs: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Samenvatting
Recente multimodale beeldgeneratoren zoals GPT-4o, Gemini 2.0 Flash en Gemini 2.5 Pro blinken uit in het volgen van complexe instructies, het bewerken van afbeeldingen en het behouden van conceptconsistentie. Ze worden echter nog steeds geëvalueerd met losstaande toolkits: tekst-naar-beeld (T2I) benchmarks die gebrek hebben aan multimodale conditionering, en aangepaste beeldgeneratiebenchmarks die compositiesemantiek en algemene kennis over het hoofd zien. Wij stellen MMIG-Bench voor, een uitgebreide Multi-Modale Beeldgeneratie Benchmark die deze taken verenigt door 4.850 rijk geannoteerde tekstprompts te koppelen aan 1.750 multi-view referentiebeelden over 380 onderwerpen, variërend van mensen, dieren, objecten en artistieke stijlen. MMIG-Bench is uitgerust met een drieledig evaluatieraamwerk: (1) laagniveau-metrics voor visuele artefacten en identiteitsbehoud van objecten; (2) de nieuwe Aspect Matching Score (AMS): een VQA-gebaseerde middenniveau-metric die fijnmazige prompt-beeldafstemming biedt en een sterke correlatie vertoont met menselijke beoordelingen; en (3) hoog-niveau-metrics voor esthetiek en menselijke voorkeur. Met MMIG-Bench evalueren we 17 state-of-the-art modellen, waaronder Gemini 2.5 Pro, FLUX, DreamBooth en IP-Adapter, en valideren we onze metrics met 32k menselijke beoordelingen, wat diepgaande inzichten oplevert in architectuur en data-ontwerp. We zullen de dataset en evaluatiecode vrijgeven om rigoureuze, verenigde evaluatie te bevorderen en toekomstige innovaties in multimodale beeldgeneratie te versnellen.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.