WorldGenBench: Un Benchmark Integrato di Conoscenza Mondiale per la Generazione di Immagini da Testo Guidata dal Ragionamento
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation
May 2, 2025
Autori: Daoan Zhang, Che Jiang, Ruoshi Xu, Biaoxiang Chen, Zijian Jin, Yutian Lu, Jianguo Zhang, Liang Yong, Jiebo Luo, Shengda Luo
cs.AI
Abstract
I recenti progressi nella generazione da testo a immagine (T2I) hanno ottenuto risultati impressionanti, ma i modelli esistenti continuano a incontrare difficoltà con prompt che richiedono una ricca conoscenza del mondo e ragionamenti impliciti: entrambi aspetti cruciali per produrre immagini semanticamente accurate, coerenti e contestualmente appropriate in scenari reali. Per colmare questa lacuna, introduciamo WorldGenBench, un benchmark progettato per valutare sistematicamente la capacità dei modelli T2I di fondarsi sulla conoscenza del mondo e di eseguire inferenze implicite, coprendo sia il dominio umanistico che quello naturale. Proponiamo il Knowledge Checklist Score, una metrica strutturata che misura quanto bene le immagini generate soddisfano le aspettative semantiche chiave. Esperimenti condotti su 21 modelli all'avanguardia rivelano che, sebbene i modelli di diffusione siano in testa tra i metodi open-source, modelli auto-regressivi proprietari come GPT-4o mostrano una capacità di ragionamento e integrazione della conoscenza significativamente superiore. I nostri risultati evidenziano la necessità di una comprensione più profonda e di capacità inferenziali nei sistemi T2I di prossima generazione. Pagina del progetto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}
English
Recent advances in text-to-image (T2I) generation have achieved impressive
results, yet existing models still struggle with prompts that require rich
world knowledge and implicit reasoning: both of which are critical for
producing semantically accurate, coherent, and contextually appropriate images
in real-world scenarios. To address this gap, we introduce
WorldGenBench, a benchmark designed to systematically evaluate T2I
models' world knowledge grounding and implicit inferential capabilities,
covering both the humanities and nature domains. We propose the
Knowledge Checklist Score, a structured metric that measures how well
generated images satisfy key semantic expectations. Experiments across 21
state-of-the-art models reveal that while diffusion models lead among
open-source methods, proprietary auto-regressive models like GPT-4o exhibit
significantly stronger reasoning and knowledge integration. Our findings
highlight the need for deeper understanding and inference capabilities in
next-generation T2I systems. Project Page:
https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}