DEsignBench: Explorando e Avaliando o DALL-E 3 para a Criação de Design Visual

Resumo

Apresentamos o DEsignBench, um benchmark de geração de texto para imagem (T2I) projetado especificamente para cenários de design visual. Modelos recentes de T2I, como o DALL-E 3 e outros, demonstraram capacidades impressionantes na geração de imagens foto realistas que se alinham estreitamente com entradas textuais. Embora o fascínio de criar imagens visualmente cativantes seja inegável, nossa ênfase vai além do mero prazer estético. Nosso objetivo é investigar o potencial de usar esses modelos poderosos em contextos de design autênticos. Para alcançar esse objetivo, desenvolvemos o DEsignBench, que incorpora amostras de teste projetadas para avaliar modelos T2I tanto na "capacidade técnica de design" quanto no "cenário de aplicação de design". Cada uma dessas duas dimensões é apoiada por um conjunto diversificado de categorias de design específicas. Exploramos o DALL-E 3 juntamente com outros modelos líderes de T2I no DEsignBench, resultando em uma galeria visual abrangente para comparações lado a lado. Para a avaliação do DEsignBench, realizamos avaliações humanas nas imagens geradas na galeria do DEsignBench, com base nos critérios de alinhamento texto-imagem, estética visual e criatividade de design. Nossa avaliação também considera outras capacidades de design especializadas, incluindo renderização de texto, composição de layout, harmonia de cores, design 3D e estilo de mídia. Além das avaliações humanas, introduzimos o primeiro avaliador automático de geração de imagens alimentado por GPT-4V. Esse avaliador fornece classificações que se alinham bem com os julgamentos humanos, ao mesmo tempo que é facilmente replicável e econômico. Uma versão de alta resolução está disponível em https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=

English

We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored for visual design scenarios. Recent T2I models like DALL-E 3 and others, have demonstrated remarkable capabilities in generating photorealistic images that align closely with textual inputs. While the allure of creating visually captivating images is undeniable, our emphasis extends beyond mere aesthetic pleasure. We aim to investigate the potential of using these powerful models in authentic design contexts. In pursuit of this goal, we develop DEsignBench, which incorporates test samples designed to assess T2I models on both "design technical capability" and "design application scenario." Each of these two dimensions is supported by a diverse set of specific design categories. We explore DALL-E 3 together with other leading T2I models on DEsignBench, resulting in a comprehensive visual gallery for side-by-side comparisons. For DEsignBench benchmarking, we perform human evaluations on generated images in DEsignBench gallery, against the criteria of image-text alignment, visual aesthetic, and design creativity. Our evaluation also considers other specialized design capabilities, including text rendering, layout composition, color harmony, 3D design, and medium style. In addition to human evaluations, we introduce the first automatic image generation evaluator powered by GPT-4V. This evaluator provides ratings that align well with human judgments, while being easily replicable and cost-efficient. A high-resolution version is available at https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=

DEsignBench: Explorando e Avaliando o DALL-E 3 para a Criação de Design Visual

DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

Resumo

Support