MMIG-Bench: Rumo a uma Avaliação Abrangente e Explicável de Modelos de Geração de Imagens Multimodais
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Autores: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Resumo
Geradores de imagens multimodais recentes, como GPT-4o, Gemini 2.0 Flash e Gemini 2.5 Pro, destacam-se na capacidade de seguir instruções complexas, editar imagens e manter a consistência de conceitos. No entanto, eles ainda são avaliados por conjuntos de ferramentas desconexos: benchmarks de texto para imagem (T2I) que carecem de condicionamento multimodal, e benchmarks personalizados de geração de imagens que negligenciam a semântica composicional e o conhecimento comum. Propomos o MMIG-Bench, um benchmark abrangente de Geração de Imagens Multimodal que unifica essas tarefas ao emparelhar 4.850 prompts de texto ricamente anotados com 1.750 imagens de referência de múltiplas perspectivas, abrangendo 380 temas, incluindo humanos, animais, objetos e estilos artísticos. O MMIG-Bench é equipado com uma estrutura de avaliação de três níveis: (1) métricas de baixo nível para artefatos visuais e preservação da identidade de objetos; (2) a nova Pontuação de Correspondência de Aspecto (AMS): uma métrica de nível médio baseada em VQA que oferece um alinhamento detalhado entre prompt e imagem e mostra forte correlação com julgamentos humanos; e (3) métricas de alto nível para estética e preferência humana. Utilizando o MMIG-Bench, avaliamos 17 modelos state-of-the-art, incluindo Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, e validamos nossas métricas com 32 mil avaliações humanas, obtendo insights profundos sobre arquitetura e design de dados. Liberaremos o conjunto de dados e o código de avaliação para promover uma avaliação rigorosa e unificada e acelerar futuras inovações na geração de imagens multimodais.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.