ChatPaper.aiChatPaper

DEsignBench : Exploration et évaluation comparative de DALL-E 3 pour la conception visuelle

DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

October 23, 2023
Auteurs: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
cs.AI

Résumé

Nous présentons DEsignBench, un benchmark de génération texte-image (T2I) conçu spécifiquement pour les scénarios de conception visuelle. Les modèles T2I récents, tels que DALL-E 3 et d'autres, ont démontré des capacités remarquables à générer des images photoréalistes qui s'alignent étroitement avec les entrées textuelles. Bien que l'attrait de créer des images visuellement captivantes soit indéniable, notre accent va au-delà du simple plaisir esthétique. Nous visons à explorer le potentiel d'utilisation de ces modèles puissants dans des contextes de conception authentiques. Dans cette optique, nous avons développé DEsignBench, qui intègre des échantillons de test conçus pour évaluer les modèles T2I sur deux dimensions : la « capacité technique de conception » et le « scénario d'application de conception ». Chacune de ces dimensions est soutenue par un ensemble diversifié de catégories de conception spécifiques. Nous explorons DALL-E 3 ainsi que d'autres modèles T2I de pointe sur DEsignBench, aboutissant à une galerie visuelle complète pour des comparaisons côte à côte. Pour l'évaluation de DEsignBench, nous effectuons des évaluations humaines sur les images générées dans la galerie DEsignBench, en fonction des critères d'alignement texte-image, d'esthétique visuelle et de créativité de conception. Notre évaluation prend également en compte d'autres capacités de conception spécialisées, notamment le rendu de texte, la composition de mise en page, l'harmonie des couleurs, la conception 3D et le style de médium. En plus des évaluations humaines, nous introduisons le premier évaluateur automatique de génération d'images alimenté par GPT-4V. Cet évaluateur fournit des notations qui s'alignent bien avec les jugements humains, tout en étant facilement reproductible et économique. Une version haute résolution est disponible à l'adresse suivante : https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
English
We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored for visual design scenarios. Recent T2I models like DALL-E 3 and others, have demonstrated remarkable capabilities in generating photorealistic images that align closely with textual inputs. While the allure of creating visually captivating images is undeniable, our emphasis extends beyond mere aesthetic pleasure. We aim to investigate the potential of using these powerful models in authentic design contexts. In pursuit of this goal, we develop DEsignBench, which incorporates test samples designed to assess T2I models on both "design technical capability" and "design application scenario." Each of these two dimensions is supported by a diverse set of specific design categories. We explore DALL-E 3 together with other leading T2I models on DEsignBench, resulting in a comprehensive visual gallery for side-by-side comparisons. For DEsignBench benchmarking, we perform human evaluations on generated images in DEsignBench gallery, against the criteria of image-text alignment, visual aesthetic, and design creativity. Our evaluation also considers other specialized design capabilities, including text rendering, layout composition, color harmony, 3D design, and medium style. In addition to human evaluations, we introduce the first automatic image generation evaluator powered by GPT-4V. This evaluator provides ratings that align well with human judgments, while being easily replicable and cost-efficient. A high-resolution version is available at https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
PDF142December 15, 2024