BizGenEval: Een Systematische Benchmark voor Commerciële Visuele Inhoudsgeneratie

Samenvatting

Recente vooruitgang in beeldgeneratiemodellen heeft hun toepassingen uitgebreid van esthetische beeldvorming naar praktische visuele contentcreatie. Bestaande benchmarks richten zich echter voornamelijk op de synthese van natuurlijke beelden en slagen er niet in om modellen systematisch te evalueren onder de gestructureerde en multi-constraint vereisten van real-world commerciële ontwerptaken. In dit werk introduceren we BizGenEval, een systematische benchmark voor commerciële visuele contentgeneratie. De benchmark omvat vijf representatieve documenttypen: presentaties, grafieken, webpagina's, posters en wetenschappelijke figuren, en evalueert vier belangrijke capaciteitsdimensies: tekstweergave, lay-outcontrole, attribuutbinding en op kennis gebaseerd redeneren, wat resulteert in 20 diverse evaluatietaken. BizGenEval bevat 400 zorgvuldig samengestelde prompts en 8000 door mensen geverifieerde checklistvragen om rigoureus te beoordelen of gegenereerde afbeeldingen aan complexe visuele en semantische constraints voldoen. We voeren grootschalige benchmarking uit op 26 populaire beeldgeneratiesystemen, waaronder state-of-the-art commerciële API's en toonaangevende open-source modellen. De resultaten onthullen aanzienlijke capaciteitskloof tussen huidige generatieve modellen en de vereisten van professionele visuele contentcreatie. We hopen dat BizGenEval dient als een gestandaardiseerde benchmark voor real-world commerciële visuele contentgeneratie.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.

BizGenEval: Een Systematische Benchmark voor Commerciële Visuele Inhoudsgeneratie

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Samenvatting

Support