MMIG-Bench: Hacia una Evaluación Integral y Explicable de Modelos de Generación de Imágenes Multimodales

Resumen

Los generadores de imágenes multimodales recientes, como GPT-4o, Gemini 2.0 Flash y Gemini 2.5 Pro, destacan por su capacidad para seguir instrucciones complejas, editar imágenes y mantener la consistencia conceptual. Sin embargo, aún son evaluados mediante conjuntos de herramientas desarticulados: benchmarks de texto a imagen (T2I) que carecen de condicionamiento multimodal, y benchmarks personalizados de generación de imágenes que pasan por alto la semántica composicional y el conocimiento común. Proponemos MMIG-Bench, un benchmark integral de Generación de Imágenes Multimodales que unifica estas tareas al emparejar 4,850 indicaciones de texto ricamente anotadas con 1,750 imágenes de referencia multivista en 380 temas, que abarcan humanos, animales, objetos y estilos artísticos. MMIG-Bench está equipado con un marco de evaluación de tres niveles: (1) métricas de bajo nivel para artefactos visuales y preservación de la identidad de objetos; (2) la novedosa Puntuación de Coincidencia de Aspectos (AMS, por sus siglas en inglés): una métrica de nivel medio basada en VQA que ofrece una alineación detallada entre la indicación y la imagen y muestra una fuerte correlación con los juicios humanos; y (3) métricas de alto nivel para estética y preferencia humana. Utilizando MMIG-Bench, evaluamos 17 modelos de última generación, incluyendo Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, y validamos nuestras métricas con 32,000 valoraciones humanas, obteniendo insights profundos sobre la arquitectura y el diseño de datos. Publicaremos el conjunto de datos y el código de evaluación para fomentar una evaluación rigurosa y unificada, y acelerar las futuras innovaciones en la generación de imágenes multimodales.

English

Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design. We will release the dataset and evaluation code to foster rigorous, unified evaluation and accelerate future innovations in multi-modal image generation.

MMIG-Bench: Hacia una Evaluación Integral y Explicable de Modelos de Generación de Imágenes Multimodales

MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

Resumen

Support