BizGenEval: Un Punto de Referencia Sistemático para la Generación de Contenido Visual Comercial

Resumen

Los recientes avances en los modelos de generación de imágenes han ampliado sus aplicaciones más allá de la creación de imágenes estéticas hacia la producción de contenido visual práctico. Sin embargo, los puntos de referencia existentes se centran principalmente en la síntesis de imágenes naturales y no logran evaluar sistemáticamente a los modelos bajo los requisitos estructurados y con múltiples restricciones de las tareas de diseño comercial del mundo real. En este trabajo, presentamos BizGenEval, un punto de referencia sistemático para la generación de contenido visual comercial. El criterio de evaluación abarca cinco tipos de documentos representativos: diapositivas, gráficos, páginas web, carteles y figuras científicas, y evalúa cuatro dimensiones clave de capacidad: renderizado de texto, control de diseño, vinculación de atributos y razonamiento basado en conocimiento, formando 20 tareas de evaluación diversas. BizGenEval contiene 400 indicaciones cuidadosamente seleccionadas y 8000 preguntas de lista de verificación validadas por humanos para evaluar rigurosamente si las imágenes generadas satisfacen restricciones visuales y semánticas complejas. Realizamos una evaluación comparativa a gran escala de 26 sistemas populares de generación de imágenes, incluyendo APIs comerciales de última generación y modelos de código abierto líderes. Los resultados revelan brechas sustanciales de capacidad entre los modelos generativos actuales y los requisitos de la creación profesional de contenido visual. Esperamos que BizGenEval sirva como un punto de referencia estandarizado para la generación de contenido visual comercial del mundo real.

English

Recent advances in image generation models have expanded their applications beyond aesthetic imagery toward practical visual content creation. However, existing benchmarks mainly focus on natural image synthesis and fail to systematically evaluate models under the structured and multi-constraint requirements of real-world commercial design tasks. In this work, we introduce BizGenEval, a systematic benchmark for commercial visual content generation. The benchmark spans five representative document types: slides, charts, webpages, posters, and scientific figures, and evaluates four key capability dimensions: text rendering, layout control, attribute binding, and knowledge-based reasoning, forming 20 diverse evaluation tasks. BizGenEval contains 400 carefully curated prompts and 8000 human-verified checklist questions to rigorously assess whether generated images satisfy complex visual and semantic constraints. We conduct large-scale benchmarking on 26 popular image generation systems, including state-of-the-art commercial APIs and leading open-source models. The results reveal substantial capability gaps between current generative models and the requirements of professional visual content creation. We hope BizGenEval serves as a standardized benchmark for real-world commercial visual content generation.

BizGenEval: Un Punto de Referencia Sistemático para la Generación de Contenido Visual Comercial

BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

Resumen

Support