ImagenWorld: Stress-Testen van Beeldgeneratiemodellen met Uitlegbare Menselijke Evaluatie op Open-Einde Real-World Taken

Samenvatting

Vooruitgang in diffusie-, autoregressieve en hybride modellen heeft hoogwaardige beeld synthese mogelijk gemaakt voor taken zoals tekst-naar-beeld, bewerking en referentiegestuurde compositie. Toch blijven bestaande benchmarks beperkt: ze richten zich op geïsoleerde taken, bestrijken slechts smalle domeinen, of leveren ondoorzichtige scores zonder foutmodi te verklaren. Wij introduceren ImagenWorld, een benchmark met 3.6K conditiesets die zes kerntaken omvat (generatie en bewerking, met enkele of meerdere referenties) en zes thematische domeinen (kunstwerken, fotorealistische beelden, infographics, tekstafbeeldingen, computer graphics en schermafbeeldingen). De benchmark wordt ondersteund door 20K fijnmazige menselijke annotaties en een verklaarbaar evaluatieschema dat gelokaliseerde object- en segmentniveau fouten tagt, als aanvulling op geautomatiseerde VLM-gebaseerde metrieken. Onze grootschalige evaluatie van 14 modellen levert verschillende inzichten op: (1) modellen hebben doorgaans meer moeite met bewerkingstaken dan met generatietaken, vooral bij lokale aanpassingen. (2) modellen presteren uitstekend in artistieke en fotorealistische contexten, maar struggelen met symbolische en tekstrijke domeinen zoals schermafbeeldingen en infographics. (3) closed-source systemen leiden overall, terwijl gerichte datacuratie (bijv. Qwen-Image) de kloof verkleint in tekstrijke gevallen. (4) moderne VLM-gebaseerde metrieken bereiken Kendall-nauwkeurigheden tot 0.79, wat menselijke rangschikking benadert, maar schieten tekort in fijnmazige, verklaarbare fouttoewijzing. ImagenWorld biedt zowel een rigoureuze benchmark als een diagnostisch hulpmiddel om robuuste beeldgeneratie vooruit te helpen.

English

Advances in diffusion, autoregressive, and hybrid models have enabled high-quality image synthesis for tasks such as text-to-image, editing, and reference-guided composition. Yet, existing benchmarks remain limited, either focus on isolated tasks, cover only narrow domains, or provide opaque scores without explaining failure modes. We introduce ImagenWorld, a benchmark of 3.6K condition sets spanning six core tasks (generation and editing, with single or multiple references) and six topical domains (artworks, photorealistic images, information graphics, textual graphics, computer graphics, and screenshots). The benchmark is supported by 20K fine-grained human annotations and an explainable evaluation schema that tags localized object-level and segment-level errors, complementing automated VLM-based metrics. Our large-scale evaluation of 14 models yields several insights: (1) models typically struggle more in editing tasks than in generation tasks, especially in local edits. (2) models excel in artistic and photorealistic settings but struggle with symbolic and text-heavy domains such as screenshots and information graphics. (3) closed-source systems lead overall, while targeted data curation (e.g., Qwen-Image) narrows the gap in text-heavy cases. (4) modern VLM-based metrics achieve Kendall accuracies up to 0.79, approximating human ranking, but fall short of fine-grained, explainable error attribution. ImagenWorld provides both a rigorous benchmark and a diagnostic tool to advance robust image generation.

ImagenWorld: Stress-Testen van Beeldgeneratiemodellen met Uitlegbare Menselijke Evaluatie op Open-Einde Real-World Taken

ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

Samenvatting

Support