DEsignBench: Explorando e Avaliando o DALL-E 3 para a Criação de Design Visual
DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design
October 23, 2023
Autores: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
cs.AI
Resumo
Apresentamos o DEsignBench, um benchmark de geração de texto para imagem (T2I) projetado especificamente para cenários de design visual. Modelos recentes de T2I, como o DALL-E 3 e outros, demonstraram capacidades impressionantes na geração de imagens foto realistas que se alinham estreitamente com entradas textuais. Embora o fascínio de criar imagens visualmente cativantes seja inegável, nossa ênfase vai além do mero prazer estético. Nosso objetivo é investigar o potencial de usar esses modelos poderosos em contextos de design autênticos. Para alcançar esse objetivo, desenvolvemos o DEsignBench, que incorpora amostras de teste projetadas para avaliar modelos T2I tanto na "capacidade técnica de design" quanto no "cenário de aplicação de design". Cada uma dessas duas dimensões é apoiada por um conjunto diversificado de categorias de design específicas. Exploramos o DALL-E 3 juntamente com outros modelos líderes de T2I no DEsignBench, resultando em uma galeria visual abrangente para comparações lado a lado. Para a avaliação do DEsignBench, realizamos avaliações humanas nas imagens geradas na galeria do DEsignBench, com base nos critérios de alinhamento texto-imagem, estética visual e criatividade de design. Nossa avaliação também considera outras capacidades de design especializadas, incluindo renderização de texto, composição de layout, harmonia de cores, design 3D e estilo de mídia. Além das avaliações humanas, introduzimos o primeiro avaliador automático de geração de imagens alimentado por GPT-4V. Esse avaliador fornece classificações que se alinham bem com os julgamentos humanos, ao mesmo tempo que é facilmente replicável e econômico. Uma versão de alta resolução está disponível em https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
English
We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored
for visual design scenarios. Recent T2I models like DALL-E 3 and others, have
demonstrated remarkable capabilities in generating photorealistic images that
align closely with textual inputs. While the allure of creating visually
captivating images is undeniable, our emphasis extends beyond mere aesthetic
pleasure. We aim to investigate the potential of using these powerful models in
authentic design contexts. In pursuit of this goal, we develop DEsignBench,
which incorporates test samples designed to assess T2I models on both "design
technical capability" and "design application scenario." Each of these two
dimensions is supported by a diverse set of specific design categories. We
explore DALL-E 3 together with other leading T2I models on DEsignBench,
resulting in a comprehensive visual gallery for side-by-side comparisons. For
DEsignBench benchmarking, we perform human evaluations on generated images in
DEsignBench gallery, against the criteria of image-text alignment, visual
aesthetic, and design creativity. Our evaluation also considers other
specialized design capabilities, including text rendering, layout composition,
color harmony, 3D design, and medium style. In addition to human evaluations,
we introduce the first automatic image generation evaluator powered by GPT-4V.
This evaluator provides ratings that align well with human judgments, while
being easily replicable and cost-efficient. A high-resolution version is
available at
https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=