MMIG-Bench: Auf dem Weg zu einer umfassenden und erklärbaren Bewertung von Multi-Modalen Bildgenerierungsmodellen
MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models
May 26, 2025
Autoren: Hang Hua, Ziyun Zeng, Yizhi Song, Yunlong Tang, Liu He, Daniel Aliaga, Wei Xiong, Jiebo Luo
cs.AI
Zusammenfassung
Aktuelle multimodale Bildgeneratoren wie GPT-4o, Gemini 2.0 Flash und Gemini 2.5 Pro zeichnen sich durch ihre Fähigkeit aus, komplexe Anweisungen zu befolgen, Bilder zu bearbeiten und die Konsistenz von Konzepten zu bewahren. Dennoch werden sie noch immer durch getrennte Toolkits evaluiert: Text-zu-Bild (T2I)-Benchmarks, denen die multimodale Konditionierung fehlt, und maßgeschneiderte Bildgenerierungs-Benchmarks, die kompositionelle Semantik und Allgemeinwissen vernachlässigen. Wir schlagen MMIG-Bench vor, einen umfassenden Multi-Modalen Bildgenerierungs-Benchmark, der diese Aufgaben vereint, indem er 4.850 reich annotierte Textprompts mit 1.750 Multi-Ansichts-Referenzbildern über 380 Themenbereiche, darunter Menschen, Tiere, Objekte und künstlerische Stile, kombiniert. MMIG-Bench ist mit einem dreistufigen Bewertungsrahmen ausgestattet: (1) Low-Level-Metriken für visuelle Artefakte und Identitätserhaltung von Objekten; (2) der neuartige Aspect Matching Score (AMS): eine VQA-basierte Mid-Level-Metrik, die eine fein abgestimmte Prompt-Bild-Ausrichtung liefert und eine starke Korrelation mit menschlichen Bewertungen zeigt; und (3) High-Level-Metriken für Ästhetik und menschliche Präferenzen. Mit MMIG-Bench benchmarken wir 17 state-of-the-art Modelle, darunter Gemini 2.5 Pro, FLUX, DreamBooth und IP-Adapter, und validieren unsere Metriken mit 32.000 menschlichen Bewertungen, was tiefgreifende Einblicke in Architektur und Datendesign liefert. Wir werden den Datensatz und den Evaluationscode veröffentlichen, um eine rigorose, einheitliche Bewertung zu fördern und zukünftige Innovationen in der multimodalen Bildgenerierung zu beschleunigen.
English
Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and
Gemini 2.5 Pro excel at following complex instructions, editing images and
maintaining concept consistency. However, they are still evaluated by disjoint
toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning,
and customized image generation benchmarks that overlook compositional
semantics and common knowledge. We propose MMIG-Bench, a comprehensive
Multi-Modal Image Generation Benchmark that unifies these tasks by pairing
4,850 richly annotated text prompts with 1,750 multi-view reference images
across 380 subjects, spanning humans, animals, objects, and artistic styles.
MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level
metrics for visual artifacts and identity preservation of objects; (2) novel
Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers
fine-grained prompt-image alignment and shows strong correlation with human
judgments; and (3) high-level metrics for aesthetics and human preference.
Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5
Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human
ratings, yielding in-depth insights into architecture and data design. We will
release the dataset and evaluation code to foster rigorous, unified evaluation
and accelerate future innovations in multi-modal image generation.Summary
AI-Generated Summary