WISE: Uma Avaliação Semântica Informada pelo Conhecimento Mundial para Geração de Texto em Imagem
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
March 10, 2025
Autores: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI
Resumo
Modelos de Texto para Imagem (T2I) são capazes de gerar criações artísticas e conteúdo visual de alta qualidade. No entanto, as pesquisas e padrões de avaliação existentes concentram-se predominantemente no realismo das imagens e em alinhamentos superficiais entre texto e imagem, carecendo de uma avaliação abrangente da compreensão semântica complexa e da integração de conhecimento do mundo na geração de imagens a partir de texto. Para enfrentar esse desafio, propomos o WISE, o primeiro benchmark especificamente projetado para Avaliação Semântica Informada por Conhecimento do Mundo. O WISE vai além do mapeamento simples de palavras para pixels, desafiando os modelos com 1000 prompts meticulosamente elaborados em 25 subdomínios de senso cultural comum, raciocínio espaço-temporal e ciências naturais. Para superar as limitações da métrica CLIP tradicional, introduzimos o WiScore, uma nova métrica quantitativa para avaliar o alinhamento entre conhecimento e imagem. Por meio de testes abrangentes em 20 modelos (10 modelos T2I dedicados e 10 modelos multimodais unificados) utilizando 1.000 prompts estruturados abrangendo 25 subdomínios, nossos resultados revelam limitações significativas na capacidade desses modelos de integrar e aplicar efetivamente o conhecimento do mundo durante a geração de imagens, destacando caminhos críticos para aprimorar a incorporação e aplicação de conhecimento em modelos T2I de próxima geração. Código e dados estão disponíveis em https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic
creations and visual content. However, existing research and evaluation
standards predominantly focus on image realism and shallow text-image
alignment, lacking a comprehensive assessment of complex semantic understanding
and world knowledge integration in text to image generation. To address this
challenge, we propose WISE, the first benchmark specifically
designed for World Knowledge-Informed Semantic
Evaluation. WISE moves beyond simple word-pixel mapping by
challenging models with 1000 meticulously crafted prompts across 25 sub-domains
in cultural common sense, spatio-temporal reasoning, and natural science. To
overcome the limitations of traditional CLIP metric, we introduce
WiScore, a novel quantitative metric for assessing knowledge-image
alignment. Through comprehensive testing of 20 models (10 dedicated T2I models
and 10 unified multimodal models) using 1,000 structured prompts spanning 25
subdomains, our findings reveal significant limitations in their ability to
effectively integrate and apply world knowledge during image generation,
highlighting critical pathways for enhancing knowledge incorporation and
application in next-generation T2I models. Code and data are available at
https://github.com/PKU-YuanGroup/WISE.Summary
AI-Generated Summary