WorldGenBench : Un benchmark intégrant la connaissance du monde pour la génération d'images à partir de texte pilotée par le raisonnement

papers.abstract

Les récents progrès dans la génération texte-image (T2I) ont produit des résultats impressionnants, mais les modèles existants peinent encore à traiter des prompts nécessitant une riche connaissance du monde et un raisonnement implicite : deux éléments essentiels pour produire des images sémantiquement précises, cohérentes et contextuellement adaptées dans des scénarios réels. Pour combler cette lacune, nous introduisons WorldGenBench, un benchmark conçu pour évaluer systématiquement l'ancrage des connaissances mondiales et les capacités inférentielles implicites des modèles T2I, couvrant à la fois les domaines des sciences humaines et de la nature. Nous proposons le Knowledge Checklist Score, une métrique structurée qui mesure dans quelle mesure les images générées satisfont les attentes sémantiques clés. Les expériences menées sur 21 modèles de pointe révèlent que si les modèles de diffusion dominent parmi les méthodes open-source, les modèles auto-régressifs propriétaires comme GPT-4o montrent une intégration des connaissances et un raisonnement significativement plus robustes. Nos résultats soulignent la nécessité de capacités de compréhension et d'inférence plus approfondies dans les systèmes T2I de nouvelle génération. Page du projet : https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

English

Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

WorldGenBench : Un benchmark intégrant la connaissance du monde pour la génération d'images à partir de texte pilotée par le raisonnement

WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

papers.abstract

Support