MMIG-Bench: Naar een uitgebreide en verklaarbare evaluatie van multi-modale beeldgeneratiemodellen

Samenvatting

Recente multimodale beeldgeneratoren zoals GPT-4o, Gemini 2.0 Flash en Gemini 2.5 Pro blinken uit in het volgen van complexe instructies, het bewerken van afbeeldingen en het behouden van conceptconsistentie. Ze worden echter nog steeds geëvalueerd met losstaande toolkits: tekst-naar-beeld (T2I) benchmarks die gebrek hebben aan multimodale conditionering, en aangepaste beeldgeneratiebenchmarks die compositiesemantiek en algemene kennis over het hoofd zien. Wij stellen MMIG-Bench voor, een uitgebreide Multi-Modale Beeldgeneratie Benchmark die deze taken verenigt door 4.850 rijk geannoteerde tekstprompts te koppelen aan 1.750 multi-view referentiebeelden over 380 onderwerpen, variërend van mensen, dieren, objecten en artistieke stijlen. MMIG-Bench is uitgerust met een drieledig evaluatieraamwerk: (1) laagniveau-metrics voor visuele artefacten en identiteitsbehoud van objecten; (2) de nieuwe Aspect Matching Score (AMS): een VQA-gebaseerde middenniveau-metric die fijnmazige prompt-beeldafstemming biedt en een sterke correlatie vertoont met menselijke beoordelingen; en (3) hoog-niveau-metrics voor esthetiek en menselijke voorkeur. Met MMIG-Bench evalueren we 17 state-of-the-art modellen, waaronder Gemini 2.5 Pro, FLUX, DreamBooth en IP-Adapter, en valideren we onze metrics met 32k menselijke beoordelingen, wat diepgaande inzichten oplevert in architectuur en data-ontwerp. We zullen de dataset en evaluatiecode vrijgeven om rigoureuze, verenigde evaluatie te bevorderen en toekomstige innovaties in multimodale beeldgeneratie te versnellen.

English

Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design. We will release the dataset and evaluation code to foster rigorous, unified evaluation and accelerate future innovations in multi-modal image generation.

MMIG-Bench: Naar een uitgebreide en verklaarbare evaluatie van multi-modale beeldgeneratiemodellen

MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

Samenvatting

Support