MMIG-Bench: Hacia una Evaluación Integral y Explicable de Modelos de Generación de Imágenes Multimodales
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Autores: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Resumen
Los generadores de imágenes multimodales recientes, como GPT-4o, Gemini 2.0 Flash y Gemini 2.5 Pro, destacan por su capacidad para seguir instrucciones complejas, editar imágenes y mantener la consistencia conceptual. Sin embargo, aún son evaluados mediante conjuntos de herramientas desarticulados: benchmarks de texto a imagen (T2I) que carecen de condicionamiento multimodal, y benchmarks personalizados de generación de imágenes que pasan por alto la semántica composicional y el conocimiento común. Proponemos MMIG-Bench, un benchmark integral de Generación de Imágenes Multimodales que unifica estas tareas al emparejar 4,850 indicaciones de texto ricamente anotadas con 1,750 imágenes de referencia multivista en 380 temas, que abarcan humanos, animales, objetos y estilos artísticos. MMIG-Bench está equipado con un marco de evaluación de tres niveles: (1) métricas de bajo nivel para artefactos visuales y preservación de la identidad de objetos; (2) la novedosa Puntuación de Coincidencia de Aspectos (AMS, por sus siglas en inglés): una métrica de nivel medio basada en VQA que ofrece una alineación detallada entre la indicación y la imagen y muestra una fuerte correlación con los juicios humanos; y (3) métricas de alto nivel para estética y preferencia humana. Utilizando MMIG-Bench, evaluamos 17 modelos de última generación, incluyendo Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, y validamos nuestras métricas con 32,000 valoraciones humanas, obteniendo insights profundos sobre la arquitectura y el diseño de datos. Publicaremos el conjunto de datos y el código de evaluación para fomentar una evaluación rigurosa y unificada, y acelerar las futuras innovaciones en la generación de imágenes multimodales.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.Summary
AI-Generated Summary