WISE: Una Valutazione Semantica Informata dalla Conoscenza Mondiale per la Generazione di Immagini da Testo
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
March 10, 2025
Autori: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI
Abstract
I modelli Text-to-Image (T2I) sono in grado di generare creazioni artistiche e contenuti visivi di alta qualità. Tuttavia, la ricerca e gli standard di valutazione esistenti si concentrano prevalentemente sul realismo delle immagini e su un allineamento superficiale tra testo e immagine, mancando una valutazione completa della comprensione semantica complessa e dell'integrazione della conoscenza del mondo nella generazione di immagini da testo. Per affrontare questa sfida, proponiamo WISE, il primo benchmark specificamente progettato per la valutazione semantica informata dalla conoscenza del mondo (World Knowledge-Informed Semantic Evaluation). WISE va oltre il semplice mapping parola-pixel, sfidando i modelli con 1000 prompt accuratamente elaborati in 25 sottodomini relativi al senso comune culturale, al ragionamento spaziotemporale e alle scienze naturali. Per superare i limiti della tradizionale metrica CLIP, introduciamo WiScore, una nuova metrica quantitativa per valutare l'allineamento tra conoscenza e immagine. Attraverso test completi su 20 modelli (10 dedicati T2I e 10 modelli multimodali unificati) utilizzando 1.000 prompt strutturati in 25 sottodomini, i nostri risultati rivelano significative limitazioni nella loro capacità di integrare e applicare efficacemente la conoscenza del mondo durante la generazione di immagini, evidenziando percorsi critici per migliorare l'incorporazione e l'applicazione della conoscenza nei modelli T2I di prossima generazione. Codice e dati sono disponibili all'indirizzo https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic
creations and visual content. However, existing research and evaluation
standards predominantly focus on image realism and shallow text-image
alignment, lacking a comprehensive assessment of complex semantic understanding
and world knowledge integration in text to image generation. To address this
challenge, we propose WISE, the first benchmark specifically
designed for World Knowledge-Informed Semantic
Evaluation. WISE moves beyond simple word-pixel mapping by
challenging models with 1000 meticulously crafted prompts across 25 sub-domains
in cultural common sense, spatio-temporal reasoning, and natural science. To
overcome the limitations of traditional CLIP metric, we introduce
WiScore, a novel quantitative metric for assessing knowledge-image
alignment. Through comprehensive testing of 20 models (10 dedicated T2I models
and 10 unified multimodal models) using 1,000 structured prompts spanning 25
subdomains, our findings reveal significant limitations in their ability to
effectively integrate and apply world knowledge during image generation,
highlighting critical pathways for enhancing knowledge incorporation and
application in next-generation T2I models. Code and data are available at
https://github.com/PKU-YuanGroup/WISE.Summary
AI-Generated Summary