MMIG-Bench : Vers une évaluation complète et explicable des modèles de génération d'images multi-modales
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Auteurs: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Résumé
Les générateurs d'images multimodaux récents, tels que GPT-4o, Gemini 2.0 Flash et Gemini 2.5 Pro, excellent dans le suivi d'instructions complexes, l'édition d'images et le maintien de la cohérence des concepts. Cependant, ils sont encore évalués par des ensembles d'outils disjoints : des benchmarks de génération de texte à image (T2I) qui manquent de conditionnement multimodal, et des benchmarks de génération d'images personnalisées qui négligent la sémantique compositionnelle et les connaissances communes. Nous proposons MMIG-Bench, un benchmark complet de génération d'images multimodales qui unifie ces tâches en associant 4 850 prompts textuels richement annotés à 1 750 images de référence multivues couvrant 380 sujets, incluant des humains, des animaux, des objets et des styles artistiques. MMIG-Bench est équipé d'un cadre d'évaluation à trois niveaux : (1) des métriques de bas niveau pour les artefacts visuels et la préservation de l'identité des objets ; (2) un nouveau score d'alignement d'aspect (AMS) : une métrique de niveau intermédiaire basée sur des questions-réponses visuelles (VQA) qui offre un alignement fin entre le prompt et l'image et montre une forte corrélation avec les jugements humains ; et (3) des métriques de haut niveau pour l'esthétique et les préférences humaines. En utilisant MMIG-Bench, nous évaluons 17 modèles de pointe, dont Gemini 2.5 Pro, FLUX, DreamBooth et IP-Adapter, et validons nos métriques avec 32 000 évaluations humaines, fournissant des insights approfondis sur l'architecture et la conception des données. Nous publierons le jeu de données et le code d'évaluation pour favoriser une évaluation rigoureuse et unifiée et accélérer les futures innovations dans la génération d'images multimodales.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.Summary
AI-Generated Summary