WorldGenBench: Un punto de referencia integrado con conocimiento del mundo para la generación de imágenes a partir de texto impulsada por razonamiento
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Autores: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Resumen
Los recientes avances en la generación de texto a imagen (T2I) han logrado resultados impresionantes, pero los modelos existentes aún tienen dificultades con indicaciones que requieren un amplio conocimiento del mundo y razonamiento implícito: ambos aspectos son cruciales para producir imágenes semánticamente precisas, coherentes y contextualmente apropiadas en escenarios del mundo real. Para abordar esta brecha, presentamos WorldGenBench, un punto de referencia diseñado para evaluar sistemáticamente la capacidad de los modelos T2I para fundamentar el conocimiento del mundo y realizar inferencias implícitas, abarcando tanto el ámbito de las humanidades como el de la naturaleza. Proponemos el Puntaje de Lista de Verificación de Conocimiento, una métrica estructurada que mide qué tan bien las imágenes generadas satisfacen las expectativas semánticas clave. Los experimentos realizados con 21 modelos de última generación revelan que, aunque los modelos de difusión lideran entre los métodos de código abierto, los modelos auto-regresivos propietarios como GPT-4o exhiben un razonamiento y una integración de conocimientos significativamente más sólidos. Nuestros hallazgos destacan la necesidad de capacidades más profundas de comprensión e inferencia en los sistemas T2I de próxima generación. Página del proyecto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}Summary
AI-Generated Summary