BizGenEval: 商業用ビジュアルコンテンツ生成のための体系的ベンチマーク
BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation
March 26, 2026
著者: Yan Li, Zezi Zeng, Ziwei Zhou, Xin Gao, Muzhao Tian, Yifan Yang, Mingxi Cheng, Qi Dai, Yuqing Yang, Lili Qiu, Zhendong Wang, Zhengyuan Yang, Xue Yang, Lijuan Wang, Ji Li, Chong Luo
cs.AI
要旨
画像生成モデルの最近の進歩により、その応用は美的な画像生成から実用的なビジュアルコンテンツ制作へと拡大している。しかし、既存のベンチマークは主に自然画像の合成に焦点を当てており、実世界の商業デザインタスクが求める構造化された複数制約条件のもとでのモデル評価を体系的に行えていない。本研究では、商業用ビジュアルコンテンツ生成のための体系的ベンチマーク「BizGenEval」を提案する。このベンチマークは、スライド、チャート、ウェブページ、ポスター、科学図の5つの代表的な文書タイプを網羅し、テキストレンダリング、レイアウト制御、属性バインディング、知識ベース推論の4つの主要能力次元を評価する、20の多様な評価タスクで構成される。BizGenEvalには、生成画像が複雑な視覚的・意味的制約を満たしているかを厳密に評価するため、厳選された400のプロンプトと8000の人間検証済みチェックリスト質問が含まれる。我々は、最先端の商業APIや主要なオープンソースモデルを含む26の一般的な画像生成システムに対して大規模なベンチマーク評価を実施した。結果は、現在の生成モデルと専門的なビジュアルコンテンツ制作の要求との間に大きな能力差があることを明らかにした。BizGenEvalが実世界の商業ビジュアルコンテンツ生成の標準化されたベンチマークとして貢献することを期待する。
English
Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.