BizGenEval : Un Benchmark Systématique pour la Génération de Contenu Visuel Commercial

Résumé

Les progrès récents des modèles de génération d'images ont élargi leurs applications au-delà de la création d'images esthétiques vers la production de contenu visuel utilitaire. Cependant, les benchmarks existants se concentrent principalement sur la synthèse d'images naturelles et n'évaluent pas systématiquement les modèles selon les exigences structurées et multi-contraintes des tâches de conception commerciale réelles. Dans ce travail, nous présentons BizGenEval, un benchmark systématique pour la génération de contenu visuel commercial. Ce benchmark couvre cinq types de documents représentatifs : diapositives, graphiques, pages web, affiches et figures scientifiques, et évalue quatre dimensions clés de capacité : le rendu de texte, le contrôle de la mise en page, la liaison d'attributs et le raisonnement basé sur les connaissances, formant ainsi 20 tâches d'évaluation diverses. BizGenEval contient 400 prompts soigneusement conçus et 8000 questions de vérification humainement validées pour évaluer rigoureusement si les images générées satisfont aux contraintes visuelles et sémantiques complexes. Nous réalisons un benchmarking à grande échelle sur 26 systèmes populaires de génération d'images, incluant des API commerciales de pointe et les principaux modèles open-source. Les résultats révèlent des écarts substantiels de capacités entre les modèles génératifs actuels et les exigences de la création de contenu visuel professionnel. Nous espérons que BizGenEval servira de benchmark standardisé pour la génération de contenu visuel commercial en conditions réelles.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.

BizGenEval : Un Benchmark Systématique pour la Génération de Contenu Visuel Commercial

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Résumé

Support