ChatPaper.aiChatPaper

WorldGenBench: Ein Benchmark mit integriertem Weltwissen für verstandesgesteuerte Text-zu-Bild-Generierung

WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2, 2025
Autoren: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Bild (T2I)-Generierung haben beeindruckende Ergebnisse erzielt, doch bestehende Modelle haben nach wie vor Schwierigkeiten mit Eingabeaufforderungen, die umfangreiches Weltwissen und implizites Schlussfolgern erfordern – beides entscheidend für die Erstellung semantisch präziser, kohärenter und kontextuell angemessener Bilder in realen Szenarien. Um diese Lücke zu schließen, stellen wir WorldGenBench vor, einen Benchmark, der entwickelt wurde, um die Verankerung von Weltwissen und die impliziten Schlussfolgerungsfähigkeiten von T2I-Modellen systematisch zu bewerten und dabei sowohl geisteswissenschaftliche als auch naturwissenschaftliche Domänen abdeckt. Wir schlagen den Knowledge Checklist Score vor, eine strukturierte Metrik, die misst, wie gut generierte Bilder zentrale semantische Erwartungen erfüllen. Experimente mit 21 state-of-the-art Modellen zeigen, dass Diffusionsmodelle zwar bei Open-Source-Methoden führend sind, proprietäre autoregressive Modelle wie GPT-4o jedoch deutlich stärkere Fähigkeiten im Bereich des Schlussfolgerns und der Wissensintegration aufweisen. Unsere Ergebnisse unterstreichen die Notwendigkeit tieferer Verständnis- und Schlussfolgerungsfähigkeiten in der nächsten Generation von T2I-Systemen. Projektseite: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

Summary

AI-Generated Summary

PDF11May 6, 2025