MMIG-Bench: Verso una Valutazione Completa e Interpretabile dei Modelli di Generazione di Immagini Multi-Modali
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Autori: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Abstract
I recenti generatori di immagini multimodali come GPT-4o, Gemini 2.0 Flash e Gemini 2.5 Pro eccellono nel seguire istruzioni complesse, modificare immagini e mantenere la coerenza dei concetti. Tuttavia, vengono ancora valutati tramite toolkit disgiunti: benchmark di testo-immagine (T2I) che mancano di condizionamento multimodale e benchmark di generazione di immagini personalizzati che trascurano la semantica compositiva e la conoscenza comune. Proponiamo MMIG-Bench, un benchmark completo per la generazione di immagini multimodali che unifica questi compiti abbinando 4.850 prompt di testo riccamente annotati a 1.750 immagini di riferimento multi-vista su 380 soggetti, che spaziano da esseri umani, animali, oggetti e stili artistici. MMIG-Bench è dotato di un framework di valutazione a tre livelli: (1) metriche di basso livello per artefatti visivi e preservazione dell'identità degli oggetti; (2) un nuovo Aspect Matching Score (AMS): una metrica di medio livello basata su VQA che fornisce un allineamento fine tra prompt e immagine e mostra una forte correlazione con i giudizi umani; e (3) metriche di alto livello per l'estetica e le preferenze umane. Utilizzando MMIG-Bench, abbiamo valutato 17 modelli all'avanguardia, tra cui Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, e validato le nostre metriche con 32k valutazioni umane, ottenendo approfondite intuizioni sull'architettura e il design dei dati. Rilasceremo il dataset e il codice di valutazione per promuovere una valutazione rigorosa e unificata e accelerare le future innovazioni nella generazione di immagini multimodali.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.