WorldGenBench: Ein Benchmark mit integriertem Weltwissen für verstandesgesteuerte Text-zu-Bild-Generierung
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Autoren: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung haben beeindruckende Ergebnisse erzielt, doch bestehende Modelle haben nach wie vor Schwierigkeiten mit Eingabeaufforderungen, die umfangreiches Weltwissen und implizites Schlussfolgern erfordern – beides entscheidend für die Erstellung semantisch präziser, kohärenter und kontextuell angemessener Bilder in realen Szenarien. Um diese Lücke zu schließen, stellen wir WorldGenBench vor, einen Benchmark, der entwickelt wurde, um die Verankerung von Weltwissen und die impliziten Schlussfolgerungsfähigkeiten von T2I-Modellen systematisch zu bewerten und dabei sowohl geisteswissenschaftliche als auch naturwissenschaftliche Domänen abdeckt. Wir schlagen den Knowledge Checklist Score vor, eine strukturierte Metrik, die misst, wie gut generierte Bilder zentrale semantische Erwartungen erfüllen. Experimente mit 21 state-of-the-art Modellen zeigen, dass Diffusionsmodelle zwar bei Open-Source-Methoden führend sind, proprietäre autoregressive Modelle wie GPT-4o jedoch deutlich stärkere Fähigkeiten im Bereich des Schlussfolgerns und der Wissensintegration aufweisen. Unsere Ergebnisse unterstreichen die Notwendigkeit tieferer Verständnis- und Schlussfolgerungsfähigkeiten in der nächsten Generation von T2I-Systemen. Projektseite: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}Summary
AI-Generated Summary