WISE: Una Evaluación Semántica Informada por Conocimiento Mundial para la Generación de Texto a Imagen
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
March 10, 2025
Autores: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI
Resumen
Los modelos de Texto a Imagen (T2I) son capaces de generar creaciones artísticas y contenido visual de alta calidad. Sin embargo, las investigaciones y estándares de evaluación existentes se centran predominantemente en el realismo de las imágenes y en una alineación superficial entre texto e imagen, careciendo de una evaluación integral de la comprensión semántica compleja y la integración de conocimiento del mundo en la generación de imágenes a partir de texto. Para abordar este desafío, proponemos WISE, el primer punto de referencia diseñado específicamente para la Evaluación Semántica Informada por Conocimiento del Mundo. WISE va más allá del mapeo simple de palabras a píxeles al desafiar a los modelos con 1000 indicaciones meticulosamente elaboradas en 25 subdominios que abarcan el sentido común cultural, el razonamiento espacio-temporal y las ciencias naturales. Para superar las limitaciones de la métrica CLIP tradicional, introducimos WiScore, una nueva métrica cuantitativa para evaluar la alineación entre conocimiento e imagen. A través de pruebas exhaustivas de 20 modelos (10 modelos T2I dedicados y 10 modelos multimodales unificados) utilizando 1,000 indicaciones estructuradas que abarcan 25 subdominios, nuestros hallazgos revelan limitaciones significativas en su capacidad para integrar y aplicar efectivamente el conocimiento del mundo durante la generación de imágenes, destacando vías críticas para mejorar la incorporación y aplicación de conocimiento en los modelos T2I de próxima generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic
creations and visual content. However, existing research and evaluation
standards predominantly focus on image realism and shallow text-image
alignment, lacking a comprehensive assessment of complex semantic understanding
and world knowledge integration in text to image generation. To address this
challenge, we propose WISE, the first benchmark specifically
designed for World Knowledge-Informed Semantic
Evaluation. WISE moves beyond simple word-pixel mapping by
challenging models with 1000 meticulously crafted prompts across 25 sub-domains
in cultural common sense, spatio-temporal reasoning, and natural science. To
overcome the limitations of traditional CLIP metric, we introduce
WiScore, a novel quantitative metric for assessing knowledge-image
alignment. Through comprehensive testing of 20 models (10 dedicated T2I models
and 10 unified multimodal models) using 1,000 structured prompts spanning 25
subdomains, our findings reveal significant limitations in their ability to
effectively integrate and apply world knowledge during image generation,
highlighting critical pathways for enhancing knowledge incorporation and
application in next-generation T2I models. Code and data are available at
https://github.com/PKU-YuanGroup/WISE.Summary
AI-Generated Summary