WorldGenBench: Een Benchmark Geïntegreerd met Wereldkennis voor Redenering-Gestuurde Tekst-naar-Beeld Generatie
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Auteurs: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeld (T2I) generatie heeft indrukwekkende resultaten geboekt, maar bestaande modellen worstelen nog steeds met prompts die rijke wereldkennis en impliciete redenering vereisen: beide zijn cruciaal voor het produceren van semantisch accurate, coherente en contextueel passende beelden in realistische scenario's. Om deze kloof te overbruggen, introduceren we WorldGenBench, een benchmark ontworpen om T2I-modellen systematisch te evalueren op hun wereldkennis en impliciete inferentiemogelijkheden, waarbij zowel de geesteswetenschappen als de natuurwetenschappen worden bestreken. We stellen de Knowledge Checklist Score voor, een gestructureerde metriek die meet in hoeverre gegenereerde beelden aan belangrijke semantische verwachtingen voldoen. Experimenten met 21 state-of-the-art modellen tonen aan dat, hoewel diffusiemodellen de leiding hebben onder open-source methoden, propriëtaire autoregressieve modellen zoals GPT-4o aanzienlijk sterkere redeneer- en kennisintegratiecapaciteiten vertonen. Onze bevindingen benadrukken de noodzaak van dieper begrip en inferentiemogelijkheden in de volgende generatie T2I-systemen. Projectpagina: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}