WISE: Семантическая оценка генерации текста в изображения с учетом мировых знаний
WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation
March 10, 2025
Авторы: Yuwei Niu, Munan Ning, Mengren Zheng, Bin Lin, Peng Jin, Jiaqi Liao, Kunpeng Ning, Bin Zhu, Li Yuan
cs.AI
Аннотация
Модели преобразования текста в изображение (Text-to-Image, T2I) способны создавать высококачественные художественные произведения и визуальный контент. Однако существующие исследования и стандарты оценки в основном сосредоточены на реалистичности изображений и поверхностном соответствии текста и изображения, не предлагая всесторонней оценки сложного семантического понимания и интеграции знаний о мире в процессе генерации изображений. Для решения этой проблемы мы предлагаем WISE — первый бенчмарк, специально разработанный для семантической оценки с учетом знаний о мире. WISE выходит за рамки простого сопоставления слов и пикселей, предлагая моделям 1000 тщательно составленных запросов, охватывающих 25 поддоменов, включая культурные стереотипы, пространственно-временные рассуждения и естественные науки. Чтобы преодолеть ограничения традиционной метрики CLIP, мы представляем WiScore — новую количественную метрику для оценки соответствия знаний и изображений. В результате всестороннего тестирования 20 моделей (10 специализированных T2I-моделей и 10 унифицированных мультимодальных моделей) с использованием 1000 структурированных запросов, охватывающих 25 поддоменов, наши результаты выявили значительные ограничения в их способности эффективно интегрировать и применять знания о мире в процессе генерации изображений, что указывает на ключевые направления для улучшения интеграции и применения знаний в моделях T2I следующего поколения. Код и данные доступны по адресу https://github.com/PKU-YuanGroup/WISE.
English
Text-to-Image (T2I) models are capable of generating high-quality artistic
creations and visual content. However, existing research and evaluation
standards predominantly focus on image realism and shallow text-image
alignment, lacking a comprehensive assessment of complex semantic understanding
and world knowledge integration in text to image generation. To address this
challenge, we propose WISE, the first benchmark specifically
designed for World Knowledge-Informed Semantic
Evaluation. WISE moves beyond simple word-pixel mapping by
challenging models with 1000 meticulously crafted prompts across 25 sub-domains
in cultural common sense, spatio-temporal reasoning, and natural science. To
overcome the limitations of traditional CLIP metric, we introduce
WiScore, a novel quantitative metric for assessing knowledge-image
alignment. Through comprehensive testing of 20 models (10 dedicated T2I models
and 10 unified multimodal models) using 1,000 structured prompts spanning 25
subdomains, our findings reveal significant limitations in their ability to
effectively integrate and apply world knowledge during image generation,
highlighting critical pathways for enhancing knowledge incorporation and
application in next-generation T2I models. Code and data are available at
https://github.com/PKU-YuanGroup/WISE.Summary
AI-Generated Summary