WISE: Una Valutazione Semantica Informata dalla Conoscenza Mondiale per la Generazione di Immagini da Testo

Abstract

I modelli Text-to-Image (T2I) sono in grado di generare creazioni artistiche e contenuti visivi di alta qualità. Tuttavia, la ricerca e gli standard di valutazione esistenti si concentrano prevalentemente sul realismo delle immagini e su un allineamento superficiale tra testo e immagine, mancando una valutazione completa della comprensione semantica complessa e dell'integrazione della conoscenza del mondo nella generazione di immagini da testo. Per affrontare questa sfida, proponiamo WISE, il primo benchmark specificamente progettato per la valutazione semantica informata dalla conoscenza del mondo (World Knowledge-Informed Semantic Evaluation). WISE va oltre il semplice mapping parola-pixel, sfidando i modelli con 1000 prompt accuratamente elaborati in 25 sottodomini relativi al senso comune culturale, al ragionamento spaziotemporale e alle scienze naturali. Per superare i limiti della tradizionale metrica CLIP, introduciamo WiScore, una nuova metrica quantitativa per valutare l'allineamento tra conoscenza e immagine. Attraverso test completi su 20 modelli (10 dedicati T2I e 10 modelli multimodali unificati) utilizzando 1.000 prompt strutturati in 25 sottodomini, i nostri risultati rivelano significative limitazioni nella loro capacità di integrare e applicare efficacemente la conoscenza del mondo durante la generazione di immagini, evidenziando percorsi critici per migliorare l'incorporazione e l'applicazione della conoscenza nei modelli T2I di prossima generazione. Codice e dati sono disponibili all'indirizzo https://github.com/PKU-YuanGroup/WISE.

English

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

WISE: Una Valutazione Semantica Informata dalla Conoscenza Mondiale per la Generazione di Immagini da Testo

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

Abstract

Support