WorldGenBench: Ein Benchmark mit integriertem Weltwissen für verstandesgesteuerte Text-zu-Bild-Generierung

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung haben beeindruckende Ergebnisse erzielt, doch bestehende Modelle haben nach wie vor Schwierigkeiten mit Eingabeaufforderungen, die umfangreiches Weltwissen und implizites Schlussfolgern erfordern – beides entscheidend für die Erstellung semantisch präziser, kohärenter und kontextuell angemessener Bilder in realen Szenarien. Um diese Lücke zu schließen, stellen wir WorldGenBench vor, einen Benchmark, der entwickelt wurde, um die Verankerung von Weltwissen und die impliziten Schlussfolgerungsfähigkeiten von T2I-Modellen systematisch zu bewerten und dabei sowohl geisteswissenschaftliche als auch naturwissenschaftliche Domänen abdeckt. Wir schlagen den Knowledge Checklist Score vor, eine strukturierte Metrik, die misst, wie gut generierte Bilder zentrale semantische Erwartungen erfüllen. Experimente mit 21 state-of-the-art Modellen zeigen, dass Diffusionsmodelle zwar bei Open-Source-Methoden führend sind, proprietäre autoregressive Modelle wie GPT-4o jedoch deutlich stärkere Fähigkeiten im Bereich des Schlussfolgerns und der Wissensintegration aufweisen. Unsere Ergebnisse unterstreichen die Notwendigkeit tieferer Verständnis- und Schlussfolgerungsfähigkeiten in der nächsten Generation von T2I-Systemen. Projektseite: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

English

Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}