ChatPaper.aiChatPaper

WorldGenBench: 推論駆動型テキストから画像生成のための世界知識統合ベンチマーク

WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

May 2, 2025
著者: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI

要旨

テキストから画像(T2I)生成の最近の進展は印象的な結果を達成していますが、既存のモデルは依然として、豊富な世界知識と暗黙の推論を必要とするプロンプトに苦戦しています。これらは、現実世界のシナリオにおいて意味的に正確で一貫性があり、文脈に適した画像を生成するために不可欠です。このギャップを埋めるため、私たちはWorldGenBenchを導入しました。これは、T2Iモデルの世界知識の基盤と暗黙の推論能力を体系的に評価するためのベンチマークで、人文科学と自然科学の両方の領域をカバーしています。私たちは、生成された画像が主要な意味的期待をどれだけ満たしているかを測定する構造化された指標である「知識チェックリストスコア」を提案します。21の最先端モデルにわたる実験では、拡散モデルがオープンソース手法の中でリードしている一方で、GPT-4oのような独自の自己回帰モデルが、より強力な推論と知識統合を示すことが明らかになりました。私たちの調査結果は、次世代のT2Iシステムにおいて、より深い理解と推論能力が必要であることを強調しています。プロジェクトページ: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

Summary

AI-Generated Summary

PDF11May 6, 2025