MMIG-Bench: Auf dem Weg zu einer umfassenden und erklärbaren Bewertung von Multi-Modalen Bildgenerierungsmodellen

papers.abstract

Aktuelle multimodale Bildgeneratoren wie GPT-4o, Gemini 2.0 Flash und Gemini 2.5 Pro zeichnen sich durch ihre Fähigkeit aus, komplexe Anweisungen zu befolgen, Bilder zu bearbeiten und die Konsistenz von Konzepten zu bewahren. Dennoch werden sie noch immer durch getrennte Toolkits evaluiert: Text-zu-Bild (T2I)-Benchmarks, denen die multimodale Konditionierung fehlt, und maßgeschneiderte Bildgenerierungs-Benchmarks, die kompositionelle Semantik und Allgemeinwissen vernachlässigen. Wir schlagen MMIG-Bench vor, einen umfassenden Multi-Modalen Bildgenerierungs-Benchmark, der diese Aufgaben vereint, indem er 4.850 reich annotierte Textprompts mit 1.750 Multi-Ansichts-Referenzbildern über 380 Themenbereiche, darunter Menschen, Tiere, Objekte und künstlerische Stile, kombiniert. MMIG-Bench ist mit einem dreistufigen Bewertungsrahmen ausgestattet: (1) Low-Level-Metriken für visuelle Artefakte und Identitätserhaltung von Objekten; (2) der neuartige Aspect Matching Score (AMS): eine VQA-basierte Mid-Level-Metrik, die eine fein abgestimmte Prompt-Bild-Ausrichtung liefert und eine starke Korrelation mit menschlichen Bewertungen zeigt; und (3) High-Level-Metriken für Ästhetik und menschliche Präferenzen. Mit MMIG-Bench benchmarken wir 17 state-of-the-art Modelle, darunter Gemini 2.5 Pro, FLUX, DreamBooth und IP-Adapter, und validieren unsere Metriken mit 32.000 menschlichen Bewertungen, was tiefgreifende Einblicke in Architektur und Datendesign liefert. Wir werden den Datensatz und den Evaluationscode veröffentlichen, um eine rigorose, einheitliche Bewertung zu fördern und zukünftige Innovationen in der multimodalen Bildgenerierung zu beschleunigen.

English

Recent multimodal image generators such as GPT-4o, Gemini 2.0 Flash, and Gemini 2.5 Pro excel at following complex instructions, editing images and maintaining concept consistency. However, they are still evaluated by disjoint toolkits: text-to-image (T2I) benchmarks that lacks multi-modal conditioning, and customized image generation benchmarks that overlook compositional semantics and common knowledge. We propose MMIG-Bench, a comprehensive Multi-Modal Image Generation Benchmark that unifies these tasks by pairing 4,850 richly annotated text prompts with 1,750 multi-view reference images across 380 subjects, spanning humans, animals, objects, and artistic styles. MMIG-Bench is equipped with a three-level evaluation framework: (1) low-level metrics for visual artifacts and identity preservation of objects; (2) novel Aspect Matching Score (AMS): a VQA-based mid-level metric that delivers fine-grained prompt-image alignment and shows strong correlation with human judgments; and (3) high-level metrics for aesthetics and human preference. Using MMIG-Bench, we benchmark 17 state-of-the-art models, including Gemini 2.5 Pro, FLUX, DreamBooth, and IP-Adapter, and validate our metrics with 32k human ratings, yielding in-depth insights into architecture and data design. We will release the dataset and evaluation code to foster rigorous, unified evaluation and accelerate future innovations in multi-modal image generation.

MMIG-Bench: Auf dem Weg zu einer umfassenden und erklärbaren Bewertung von Multi-Modalen Bildgenerierungsmodellen

MMIG-Bench: Towards Comprehensive and Explainable Evaluation of Multi-Modal Image Generation Models

papers.abstract

Support