WISE: Семантическая оценка генерации текста в изображения с учетом мировых знаний

Аннотация

Модели преобразования текста в изображение (Text-to-Image, T2I) способны создавать высококачественные художественные произведения и визуальный контент. Однако существующие исследования и стандарты оценки в основном сосредоточены на реалистичности изображений и поверхностном соответствии текста и изображения, не предлагая всесторонней оценки сложного семантического понимания и интеграции знаний о мире в процессе генерации изображений. Для решения этой проблемы мы предлагаем WISE — первый бенчмарк, специально разработанный для семантической оценки с учетом знаний о мире. WISE выходит за рамки простого сопоставления слов и пикселей, предлагая моделям 1000 тщательно составленных запросов, охватывающих 25 поддоменов, включая культурные стереотипы, пространственно-временные рассуждения и естественные науки. Чтобы преодолеть ограничения традиционной метрики CLIP, мы представляем WiScore — новую количественную метрику для оценки соответствия знаний и изображений. В результате всестороннего тестирования 20 моделей (10 специализированных T2I-моделей и 10 унифицированных мультимодальных моделей) с использованием 1000 структурированных запросов, охватывающих 25 поддоменов, наши результаты выявили значительные ограничения в их способности эффективно интегрировать и применять знания о мире в процессе генерации изображений, что указывает на ключевые направления для улучшения интеграции и применения знаний в моделях T2I следующего поколения. Код и данные доступны по адресу https://github.com/PKU-YuanGroup/WISE.

English

Text-to-Image (T2I) models are capable of generating high-quality artistic creations and visual content. However, existing research and evaluation standards predominantly focus on image realism and shallow text-image alignment, lacking a comprehensive assessment of complex semantic understanding and world knowledge integration in text to image generation. To address this challenge, we propose WISE, the first benchmark specifically designed for World Knowledge-Informed Semantic Evaluation. WISE moves beyond simple word-pixel mapping by challenging models with 1000 meticulously crafted prompts across 25 sub-domains in cultural common sense, spatio-temporal reasoning, and natural science. To overcome the limitations of traditional CLIP metric, we introduce WiScore, a novel quantitative metric for assessing knowledge-image alignment. Through comprehensive testing of 20 models (10 dedicated T2I models and 10 unified multimodal models) using 1,000 structured prompts spanning 25 subdomains, our findings reveal significant limitations in their ability to effectively integrate and apply world knowledge during image generation, highlighting critical pathways for enhancing knowledge incorporation and application in next-generation T2I models. Code and data are available at https://github.com/PKU-YuanGroup/WISE.