WorldGenBench: Бенчмарк для генерации изображений из текста с интеграцией знаний о мире и акцентом на рассуждения

Аннотация

Последние достижения в области генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако существующие модели по-прежнему испытывают трудности с запросами, требующими глубоких знаний о мире и неявного логического вывода. Оба этих аспекта критически важны для создания семантически точных, связных и контекстуально уместных изображений в реальных сценариях. Для устранения этого пробела мы представляем WorldGenBench — эталонный набор данных, предназначенный для систематической оценки способности моделей T2I к заземлению знаний о мире и неявному логическому выводу, охватывающий как гуманитарные, так и естественнонаучные области. Мы предлагаем метрику Knowledge Checklist Score, структурированный показатель, который измеряет, насколько хорошо сгенерированные изображения соответствуют ключевым семантическим ожиданиям. Эксперименты с 21 современной моделью показывают, что, хотя диффузионные модели лидируют среди открытых методов, проприетарные авторегрессивные модели, такие как GPT-4o, демонстрируют значительно более сильные способности к логическому выводу и интеграции знаний. Наши результаты подчеркивают необходимость более глубокого понимания и логического вывода в системах T2I следующего поколения. Страница проекта: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

English

Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}