WorldGenBench: Un Benchmark Integrato di Conoscenza Mondiale per la Generazione di Immagini da Testo Guidata dal Ragionamento

Abstract

I recenti progressi nella generazione da testo a immagine (T2I) hanno ottenuto risultati impressionanti, ma i modelli esistenti continuano a incontrare difficoltà con prompt che richiedono una ricca conoscenza del mondo e ragionamenti impliciti: entrambi aspetti cruciali per produrre immagini semanticamente accurate, coerenti e contestualmente appropriate in scenari reali. Per colmare questa lacuna, introduciamo WorldGenBench, un benchmark progettato per valutare sistematicamente la capacità dei modelli T2I di fondarsi sulla conoscenza del mondo e di eseguire inferenze implicite, coprendo sia il dominio umanistico che quello naturale. Proponiamo il Knowledge Checklist Score, una metrica strutturata che misura quanto bene le immagini generate soddisfano le aspettative semantiche chiave. Esperimenti condotti su 21 modelli all'avanguardia rivelano che, sebbene i modelli di diffusione siano in testa tra i metodi open-source, modelli auto-regressivi proprietari come GPT-4o mostrano una capacità di ragionamento e integrazione della conoscenza significativamente superiore. I nostri risultati evidenziano la necessità di una comprensione più profonda e di capacità inferenziali nei sistemi T2I di prossima generazione. Pagina del progetto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

English

Recent advances in text-to-image (T2I) generation have achieved impressive results, yet existing models still struggle with prompts that require rich world knowledge and implicit reasoning: both of which are critical for producing semantically accurate, coherent, and contextually appropriate images in real-world scenarios. To address this gap, we introduce WorldGenBench, a benchmark designed to systematically evaluate T2I models' world knowledge grounding and implicit inferential capabilities, covering both the humanities and nature domains. We propose the Knowledge Checklist Score, a structured metric that measures how well generated images satisfy key semantic expectations. Experiments across 21 state-of-the-art models reveal that while diffusion models lead among open-source methods, proprietary auto-regressive models like GPT-4o exhibit significantly stronger reasoning and knowledge integration. Our findings highlight the need for deeper understanding and inference capabilities in next-generation T2I systems. Project Page: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}

WorldGenBench: Un Benchmark Integrato di Conoscenza Mondiale per la Generazione di Immagini da Testo Guidata dal Ragionamento

WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation

Abstract

Support