ChatPaper.aiChatPaper

WISE : Une évaluation sémantique informée par la connaissance mondiale pour la génération texte-image

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

March 10, 2025
Auteurs: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI

Résumé

Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) sont capables de produire des créations artistiques et des contenus visuels de haute qualité. Cependant, les recherches et normes d'évaluation existantes se concentrent principalement sur le réalisme des images et sur un alignement superficiel entre le texte et l'image, sans offrir une évaluation complète de la compréhension sémantique complexe et de l'intégration des connaissances du monde dans la génération d'images à partir de texte. Pour relever ce défi, nous proposons WISE, le premier benchmark spécifiquement conçu pour l'Évaluation Sémantique Informée par les Connaissances du Monde (World Knowledge-Informed Semantic Evaluation). WISE va au-delà d'une simple correspondance mot-pixel en confrontant les modèles à 1000 prompts soigneusement élaborés, répartis dans 25 sous-domaines couvrant le bon sens culturel, le raisonnement spatio-temporel et les sciences naturelles. Pour surmonter les limites de la métrique CLIP traditionnelle, nous introduisons WiScore, une nouvelle métrique quantitative pour évaluer l'alignement entre les connaissances et l'image. À travers des tests approfondis de 20 modèles (10 modèles T2I dédiés et 10 modèles multimodaux unifiés) utilisant 1000 prompts structurés couvrant 25 sous-domaines, nos résultats révèlent des limitations significatives dans leur capacité à intégrer et appliquer efficacement les connaissances du monde lors de la génération d'images, mettant en lumière des pistes cruciales pour améliorer l'incorporation et l'application des connaissances dans les modèles T2I de nouvelle génération. Le code et les données sont disponibles à l'adresse https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

Summary

AI-Generated Summary

PDF41March 11, 2025