BizGenEval: Eine systematische Benchmark für kommerzielle visuelle Inhaltserzeugung

Zusammenfassung

Jüngste Fortschritte bei Bildgenerierungsmodellen haben deren Anwendungsbereiche über ästhetische Bilddarstellungen hinaus auf die praktische Erstellung visueller Inhalte erweitert. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf die Synthese natürlicher Bilder und versagen dabei, Modelle systematisch unter den strukturierten und mehrfach eingeschränkten Anforderungen realer kommerzieller Designaufgaben zu bewerten. In dieser Arbeit stellen wir BizGenEval vor, einen systematischen Benchmark für die kommerzielle Erstellung visueller Inhalte. Der Benchmark umfasst fünf repräsentative Dokumenttypen: Präsentationsfolien, Diagramme, Webseiten, Poster und wissenschaftliche Abbildungen, und bewertet vier zentrale Fähigkeitsdimensionen: Textdarstellung, Layoutsteuerung, Attributbindung und wissensbasiertes Schlussfolgern, was 20 verschiedene Evaluierungsaufgaben bildet. BizGenEval enthält 400 sorgfältig zusammengestellte Prompts und 8000 von Menschen verifizierte Checklistenfragen, um rigoros zu bewerten, ob generierte Bilder komplexe visuelle und semantische Einschränkungen erfüllen. Wir führen umfangreiche Benchmark-Tests mit 26 populären Bildgenerierungssystemen durch, einschließlich moderner kommerzieller APIs und führender Open-Source-Modelle. Die Ergebnisse zeigen erhebliche Fähigkeitslücken zwischen aktuellen generativen Modellen und den Anforderungen professioneller visueller Inhaltserstellung. Wir hoffen, dass BizGenEval als standardisierter Benchmark für die kommerzielle Erstellung visueller Inhalte in der Praxis dient.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.

BizGenEval: Eine systematische Benchmark für kommerzielle visuelle Inhaltserzeugung

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Zusammenfassung

Support