ChatPaper.aiChatPaper

WISE: Una Evaluación Semántica Informada por Conocimiento Mundial para la Generación de Texto a Imagen

WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation

March 10, 2025
Autores: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI

Resumen

Los modelos de Texto a Imagen (T2I) son capaces de generar creaciones artísticas y contenido visual de alta calidad. Sin embargo, las investigaciones y estándares de evaluación existentes se centran predominantemente en el realismo de las imágenes y en una alineación superficial entre texto e imagen, careciendo de una evaluación integral de la comprensión semántica compleja y la integración de conocimiento del mundo en la generación de imágenes a partir de texto. Para abordar este desafío, proponemos WISE, el primer punto de referencia diseñado específicamente para la Evaluación Semántica Informada por Conocimiento del Mundo. WISE va más allá del mapeo simple de palabras a píxeles al desafiar a los modelos con 1000 indicaciones meticulosamente elaboradas en 25 subdominios que abarcan el sentido común cultural, el razonamiento espacio-temporal y las ciencias naturales. Para superar las limitaciones de la métrica CLIP tradicional, introducimos WiScore, una nueva métrica cuantitativa para evaluar la alineación entre conocimiento e imagen. A través de pruebas exhaustivas de 20 modelos (10 modelos T2I dedicados y 10 modelos multimodales unificados) utilizando 1,000 indicaciones estructuradas que abarcan 25 subdominios, nuestros hallazgos revelan limitaciones significativas en su capacidad para integrar y aplicar efectivamente el conocimiento del mundo durante la generación de imágenes, destacando vías críticas para mejorar la incorporación y aplicación de conocimiento en los modelos T2I de próxima generación. El código y los datos están disponibles en https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.

Summary

AI-Generated Summary

PDF41March 11, 2025