WISE: Een Semantische Evaluatie voor Tekst-naar-Beeld Generatie met Wereldkennis
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
March 10, 2025
Auteurs: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI
Samenvatting
Text-to-Image (T2I)-modellen zijn in staat om hoogwaardige artistieke creaties en visuele content te genereren. Bestaand onderzoek en evaluatiestandaarden richten zich echter voornamelijk op beeldrealisme en oppervlakkige tekst-beeldafstemming, waarbij een uitgebreide beoordeling van complex semantisch begrip en de integratie van wereldkennis in tekst-naar-beeldgeneratie ontbreekt. Om deze uitdaging aan te pakken, stellen we WISE voor, de eerste benchmark die specifiek is ontworpen voor World Knowledge-Informed Semantic Evaluation. WISE gaat verder dan eenvoudige woord-pixel-mapping door modellen uit te dagen met 1000 zorgvuldig opgestelde prompts verspreid over 25 subdomeinen in cultureel gezond verstand, ruimtelijk-temporeel redeneren en natuurwetenschappen. Om de beperkingen van de traditionele CLIP-metric te overwinnen, introduceren we WiScore, een nieuwe kwantitatieve metric voor het beoordelen van kennis-beeldafstemming. Door uitgebreide tests van 20 modellen (10 toegewijde T2I-modellen en 10 verenigde multimodale modellen) met behulp van 1.000 gestructureerde prompts over 25 subdomeinen, onthullen onze bevindingen aanzienlijke beperkingen in hun vermogen om wereldkennis effectief te integreren en toe te passen tijdens beeldgeneratie, wat cruciale verbeterpunten benadrukt voor de integratie en toepassing van kennis in de volgende generatie T2I-modellen. Code en data zijn beschikbaar op https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic
creations and visual content. However, existing research and evaluation
standards predominantly focus on image realism and shallow text-image
alignment, lacking a comprehensive assessment of complex semantic understanding
and world knowledge integration in text to image generation. To address this
challenge, we propose WISE, the first benchmark specifically
designed for World Knowledge-Informed Semantic
Evaluation. WISE moves beyond simple word-pixel mapping by
challenging models with 1000 meticulously crafted prompts across 25 sub-domains
in cultural common sense, spatio-temporal reasoning, and natural science. To
overcome the limitations of traditional CLIP metric, we introduce
WiScore, a novel quantitative metric for assessing knowledge-image
alignment. Through comprehensive testing of 20 models (10 dedicated T2I models
and 10 unified multimodal models) using 1,000 structured prompts spanning 25
subdomains, our findings reveal significant limitations in their ability to
effectively integrate and apply world knowledge during image generation,
highlighting critical pathways for enhancing knowledge incorporation and
application in next-generation T2I models. Code and data are available at
https://github.com/PKU-YuanGroup/WISE.Summary
AI-Generated Summary