WorldGenBench : Un benchmark intégrant la connaissance du monde pour la génération d'images à partir de texte pilotée par le raisonnement
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Auteurs: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Résumé
Les récents progrès dans la génération texte-image (T2I) ont produit des résultats impressionnants, mais les modèles existants peinent encore à traiter des prompts nécessitant une riche connaissance du monde et un raisonnement implicite : deux éléments essentiels pour produire des images sémantiquement précises, cohérentes et contextuellement adaptées dans des scénarios réels. Pour combler cette lacune, nous introduisons WorldGenBench, un benchmark conçu pour évaluer systématiquement l'ancrage des connaissances mondiales et les capacités inférentielles implicites des modèles T2I, couvrant à la fois les domaines des sciences humaines et de la nature. Nous proposons le Knowledge Checklist Score, une métrique structurée qui mesure dans quelle mesure les images générées satisfont les attentes sémantiques clés. Les expériences menées sur 21 modèles de pointe révèlent que si les modèles de diffusion dominent parmi les méthodes open-source, les modèles auto-régressifs propriétaires comme GPT-4o montrent une intégration des connaissances et un raisonnement significativement plus robustes. Nos résultats soulignent la nécessité de capacités de compréhension et d'inférence plus approfondies dans les systèmes T2I de nouvelle génération. Page du projet : https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}Summary
AI-Generated Summary