WorldGenBench: Um Benchmark Integrado de Conhecimento Mundial para Geração de Texto em Imagem Orientada por Raciocínio
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Autores: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Resumo
Os avanços recentes na geração de texto para imagem (T2I) têm alcançado resultados impressionantes, mas os modelos existentes ainda enfrentam dificuldades com prompts que exigem conhecimento profundo do mundo e raciocínio implícito: ambos são críticos para produzir imagens semanticamente precisas, coerentes e contextualmente apropriadas em cenários do mundo real. Para abordar essa lacuna, introduzimos o WorldGenBench, um benchmark projetado para avaliar sistematicamente a fundamentação do conhecimento do mundo e as capacidades inferenciais implícitas dos modelos T2I, abrangendo tanto os domínios das humanidades quanto da natureza. Propomos o Knowledge Checklist Score, uma métrica estruturada que mede o quão bem as imagens geradas atendem às expectativas semânticas-chave. Experimentos com 21 modelos de última geração revelam que, embora os modelos de difusão liderem entre os métodos de código aberto, modelos proprietários auto-regressivos como o GPT-4o exibem integração de conhecimento e raciocínio significativamente mais fortes. Nossas descobertas destacam a necessidade de capacidades mais profundas de compreensão e inferência nos sistemas T2I de próxima geração. Página do Projeto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}