BizGenEval: 상업용 시각 콘텐츠 생성을 위한 체계적 벤치마크
BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation
March 26, 2026
저자: Yan Li, Zezi Zeng, Ziwei Zhou, Xin Gao, Muzhao Tian, Yifan Yang, Mingxi Cheng, Qi Dai, Yuqing Yang, Lili Qiu, Zhendong Wang, Zhengyuan Yang, Xue Yang, Lijuan Wang, Ji Li, Chong Luo
cs.AI
초록
이미지 생성 모델의 최근 발전은 단순한 미적 이미지 생성에서 벗어나 실용적인 시각 콘텐츠 제작 영역으로 그 적용 범위를 확대하고 있습니다. 그러나 기존 벤치마크는 주로 자연 이미지 합성에 초점을 맞추어, 실제 상업적 디자인 업무에서 요구되는 구조화되고 다중 제약 조건을 가진 환경에서 모델을 체계적으로 평가하지 못하는 한계가 있습니다. 본 연구에서는 상업용 시각 콘텐츠 생성을 위한 체계적인 벤치마크인 BizGenEval을 소개합니다. 이 벤치마크는 발표자료, 차트, 웹페이지, 포스터, 과학 도표 등 5가지 대표적인 문서 유형을 포괄하며, 텍스트 렌더링, 레이아웃 제어, 속성 바인딩, 지식 기반 추론이라는 4가지 핵심 능력 차원을 평가하여 총 20가지의 다양한 평가 과제로 구성됩니다. BizGenEval은 생성된 이미지가 복잡한 시각적 및 의미적 제약 조건을 충족하는지를 엄격히 평가하기 위해 신중하게 선별된 400개의 프롬프트와 8,000개의 인간 검증 체크리스트 질문을 포함합니다. 최신 상용 API와 주요 오픈소스 모델을 포함한 26개의 인기 있는 이미지 생성 시스템에 대한 대규모 벤치마킹을 수행한 결과, 현재 생성 모델의 능력과 전문적인 시각 콘텐츠 제작 요구 사항 사이에 상당한 격차가 있음을 확인했습니다. BizGenEval이 실제 상업용 시각 콘텐츠 생성을 위한 표준화된 벤치마크로 활용되기를 기대합니다.
English
Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.