WorldGenBench: Бенчмарк для генерации изображений из текста с интеграцией знаний о мире и акцентом на рассуждения
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Авторы: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Аннотация
Последние достижения в области генерации изображений по текстовым описаниям (Text-to-Image, T2I) демонстрируют впечатляющие результаты, однако существующие модели по-прежнему испытывают трудности с запросами, требующими глубоких знаний о мире и неявного логического вывода. Оба этих аспекта критически важны для создания семантически точных, связных и контекстуально уместных изображений в реальных сценариях. Для устранения этого пробела мы представляем WorldGenBench — эталонный набор данных, предназначенный для систематической оценки способности моделей T2I к заземлению знаний о мире и неявному логическому выводу, охватывающий как гуманитарные, так и естественнонаучные области. Мы предлагаем метрику Knowledge Checklist Score, структурированный показатель, который измеряет, насколько хорошо сгенерированные изображения соответствуют ключевым семантическим ожиданиям. Эксперименты с 21 современной моделью показывают, что, хотя диффузионные модели лидируют среди открытых методов, проприетарные авторегрессивные модели, такие как GPT-4o, демонстрируют значительно более сильные способности к логическому выводу и интеграции знаний. Наши результаты подчеркивают необходимость более глубокого понимания и логического вывода в системах T2I следующего поколения. Страница проекта: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}Summary
AI-Generated Summary