ImagenWorld: Stresstests für Bildgenerierungsmodelle durch erklärbare menschliche Bewertung bei offenen realen Aufgaben

Zusammenfassung

Fortschritte bei Diffusions-, autoregressiven und hybriden Modellen haben hochwertige Bildsynthese für Aufgaben wie Text-zu-Bild, Bearbeitung und referenzgesteuerte Komposition ermöglicht. Dennoch bleiben bestehende Benchmarks begrenzt, da sie sich entweder auf isolierte Aufgaben konzentrieren, nur enge Domänen abdecken oder undurchsichtige Scores liefern, ohne Fehlermodi zu erklären. Wir stellen ImagenWorld vor, einen Benchmark mit 3.600 Konditionierungssets, die sechs Kernaufgaben (Generierung und Bearbeitung, mit einzelnen oder mehreren Referenzen) und sechs Themenbereiche (Kunstwerke, fotorealistische Bilder, Infografiken, Textgrafiken, Computergrafiken und Screenshots) umfassen. Der Benchmark wird durch 20.000 detaillierte menschliche Annotationen und ein erklärbares Bewertungsschema unterstützt, das lokalisierte Objekt- und Segmentfehler kennzeichnet und automatisierte VLM-basierte Metriken ergänzt. Unsere groß angelegte Evaluation von 14 Modellen liefert mehrere Erkenntnisse: (1) Modelle haben typischerweise größere Schwierigkeiten bei Bearbeitungsaufgaben als bei Generierungsaufgaben, insbesondere bei lokalen Bearbeitungen. (2) Modelne glänzen in künstlerischen und fotorealistischen Settings, scheitern aber an symbolischen und textlastigen Domänen wie Screenshots und Infografiken. (3) Closed-Source-Systeme führen insgesamt, während gezielte Datenkuratierung (z.B. Qwen-Image) die Lücke in textlastigen Fällen verringert. (4) Moderne VLM-basierte Metriken erreichen Kendall-Korrelationen bis zu 0,79 und nähern sich menschlichen Rankings an, bleiben jedoch hinter feingranularer, erklärbarer Fehlerattribuierung zurück. ImagenWorld bietet sowohl einen rigorosen Benchmark als auch ein Diagnosewerkzeug, um robuste Bildgenerierung voranzutreiben.

English

Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.

ImagenWorld: Stresstests für Bildgenerierungsmodelle durch erklärbare menschliche Bewertung bei offenen realen Aufgaben

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Zusammenfassung

Support