ChatPaper.aiChatPaper

WISE: テキストから画像生成のための世界知識を活用した意味的評価

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

March 10, 2025
著者: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI

要旨

テキストから画像を生成する(Text-to-Image, T2I)モデルは、高品質な芸術作品や視覚コンテンツを生成する能力を持っています。しかし、既存の研究や評価基準は主に画像のリアリズムや表面的なテキストと画像の整合性に焦点を当てており、テキストから画像を生成する際の複雑な意味理解や世界知識の統合に関する包括的な評価が欠けています。この課題に対処するため、我々は世界知識を考慮した意味評価に特化した初のベンチマーク「WISE」を提案します。WISEは、単純な単語とピクセルのマッピングを超え、文化的常識、時空間推論、自然科学の25のサブドメインにわたる1000の精巧に設計されたプロンプトを用いてモデルに挑戦します。従来のCLIPメトリックの限界を克服するため、我々は知識と画像の整合性を評価する新しい定量的メトリック「WiScore」を導入します。25のサブドメインにわたる1000の構造化されたプロンプトを用いて20のモデル(10の専用T2Iモデルと10の統一マルチモーダルモデル)を包括的にテストした結果、画像生成中に世界知識を効果的に統合し適用する能力に重大な限界があることが明らかになり、次世代T2Iモデルにおける知識の取り込みと適用を強化するための重要な道筋が示されました。コードとデータはhttps://github.com/PKU-YuanGroup/WISEで公開されています。
English
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

Summary

AI-Generated Summary

PDF41March 11, 2025