BizGenEval: Um Benchmark Sistemático para Geração Comercial de Conteúdo Visual

Resumo

Os recentes avanços nos modelos de geração de imagens expandiram suas aplicações para além da criação estética, direcionando-se para a produção prática de conteúdo visual. No entanto, os benchmarks existentes concentram-se principalmente na síntese de imagens naturais e não avaliam sistematicamente os modelos sob os requisitos estruturados e de múltiplas restrições das tarefas de design comercial do mundo real. Neste trabalho, apresentamos o BizGenEval, um benchmark sistemático para geração de conteúdo visual comercial. O benchmark abrange cinco tipos de documentos representativos: apresentações, gráficos, páginas web, pôsteres e figuras científicas, e avalia quatro dimensões-chave de capacidade: renderização de texto, controle de layout, vinculação de atributos e raciocínio baseado em conhecimento, formando 20 tarefas de avaliação diversas. O BizGenEval contém 400 prompts cuidadosamente selecionados e 8000 questões de lista de verificação validadas por humanos para avaliar rigorosamente se as imagens geradas satisfazem restrições visuais e semânticas complexas. Realizamos uma avaliação em larga escala de 26 sistemas populares de geração de imagens, incluindo APIs comerciais de última geração e modelos de código aberto líderes. Os resultados revelam lacunas substanciais de capacidade entre os modelos generativos atuais e os requisitos da criação profissional de conteúdo visual. Esperamos que o BizGenEval sirva como um benchmark padronizado para a geração de conteúdo visual comercial do mundo real.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.