MMIG-Bench : Vers une évaluation complète et explicable des modèles de génération d'images multi-modales

papers.abstract

Les générateurs d'images multimodaux récents, tels que GPT-4o, Gemini 2.0 Flash et Gemini 2.5 Pro, excellent dans le suivi d'instructions complexes, l'édition d'images et le maintien de la cohérence des concepts. Cependant, ils sont encore évalués par des ensembles d'outils disjoints : des benchmarks de génération de texte à image (T2I) qui manquent de conditionnement multimodal, et des benchmarks de génération d'images personnalisées qui négligent la sémantique compositionnelle et les connaissances communes. Nous proposons MMIG-Bench, un benchmark complet de génération d'images multimodales qui unifie ces tâches en associant 4 850 prompts textuels richement annotés à 1 750 images de référence multivues couvrant 380 sujets, incluant des humains, des animaux, des objets et des styles artistiques. MMIG-Bench est équipé d'un cadre d'évaluation à trois niveaux : (1) des métriques de bas niveau pour les artefacts visuels et la préservation de l'identité des objets ; (2) un nouveau score d'alignement d'aspect (AMS) : une métrique de niveau intermédiaire basée sur des questions-réponses visuelles (VQA) qui offre un alignement fin entre le prompt et l'image et montre une forte corrélation avec les jugements humains ; et (3) des métriques de haut niveau pour l'esthétique et les préférences humaines. En utilisant MMIG-Bench, nous évaluons 17 modèles de pointe, dont Gemini 2.5 Pro, FLUX, DreamBooth et IP-Adapter, et validons nos métriques avec 32 000 évaluations humaines, fournissant des insights approfondis sur l'architecture et la conception des données. Nous publierons le jeu de données et le code d'évaluation pour favoriser une évaluation rigoureuse et unifiée et accélérer les futures innovations dans la génération d'images multimodales.

English

Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design. We will release the dataset and evaluation code to foster rigorous, unified evaluation and accelerate future innovations in multi-modal image generation.

MMIG-Bench : Vers une évaluation complète et explicable des modèles de génération d'images multi-modales

MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

papers.abstract

Support