WISE: Een Semantische Evaluatie voor Tekst-naar-Beeld Generatie met Wereldkennis

Samenvatting

Text-to-Image (T2I)-modellen zijn in staat om hoogwaardige artistieke creaties en visuele content te genereren. Bestaand onderzoek en evaluatiestandaarden richten zich echter voornamelijk op beeldrealisme en oppervlakkige tekst-beeldafstemming, waarbij een uitgebreide beoordeling van complex semantisch begrip en de integratie van wereldkennis in tekst-naar-beeldgeneratie ontbreekt. Om deze uitdaging aan te pakken, stellen we WISE voor, de eerste benchmark die specifiek is ontworpen voor World Knowledge-Informed Semantic Evaluation. WISE gaat verder dan eenvoudige woord-pixel-mapping door modellen uit te dagen met 1000 zorgvuldig opgestelde prompts verspreid over 25 subdomeinen in cultureel gezond verstand, ruimtelijk-temporeel redeneren en natuurwetenschappen. Om de beperkingen van de traditionele CLIP-metric te overwinnen, introduceren we WiScore, een nieuwe kwantitatieve metric voor het beoordelen van kennis-beeldafstemming. Door uitgebreide tests van 20 modellen (10 toegewijde T2I-modellen en 10 verenigde multimodale modellen) met behulp van 1.000 gestructureerde prompts over 25 subdomeinen, onthullen onze bevindingen aanzienlijke beperkingen in hun vermogen om wereldkennis effectief te integreren en toe te passen tijdens beeldgeneratie, wat cruciale verbeterpunten benadrukt voor de integratie en toepassing van kennis in de volgende generatie T2I-modellen. Code en data zijn beschikbaar op https://github.com/PKU-YuanGroup/WISE.

English

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

WISE: Een Semantische Evaluatie voor Tekst-naar-Beeld Generatie met Wereldkennis

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Samenvatting

Support