BizGenEval: Un Benchmark Sistematico per la Generazione di Contenuti Visivi Commerciali

Abstract

I recenti progressi nei modelli di generazione di immagini hanno ampliato le loro applicazioni oltre la creazione di immagini estetiche verso la produzione di contenuti visivi pratici. Tuttavia, i benchmark esistenti si concentrano principalmente sulla sintesi di immagini naturali e non riescono a valutare sistematicamente i modelli in base alle esigenze strutturate e multi-vincolo tipiche dei compiti di design commerciale del mondo reale. In questo lavoro, presentiamo BizGenEval, un benchmark sistematico per la generazione di contenuti visivi commerciali. Il benchmark copre cinque tipi di documento rappresentativi: presentazioni, grafici, pagine web, poster e figure scientifiche, e valuta quattro dimensioni chiave delle capacità: rendering del testo, controllo del layout, associazione di attributi e ragionamento basato sulla conoscenza, formando 20 diverse attività di valutazione. BizGenEval contiene 400 prompt accuratamente curati e 8000 domande di verifica controllate da esseri umani per valutare rigorosamente se le immagini generate soddisfano vincoli visivi e semantici complessi. Abbiamo condotto un benchmarking su larga scala di 26 sistemi di generazione di immagini popolari, incluse API commerciali all'avanguardia e modelli open-source leader. I risultati rivelano divari sostanziali tra le capacità dei modelli generativi attuali e i requisiti della creazione professionale di contenuti visivi. Speriamo che BizGenEval serva come benchmark standardizzato per la generazione di contenuti visivi commerciali nel mondo reale.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.

BizGenEval: Un Benchmark Sistematico per la Generazione di Contenuti Visivi Commerciali

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Abstract

Support