ChatPaper.aiChatPaper

DEsignBench: Erforschung und Benchmarking von DALL-E 3 zur Visualisierung von Design

DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design

October 23, 2023
Autoren: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
cs.AI

Zusammenfassung

Wir stellen DEsignBench vor, einen Text-zu-Bild (T2I)-Generierungs-Benchmark, der speziell für visuelle Design-Szenarien entwickelt wurde. Aktuelle T2I-Modelle wie DALL-E 3 und andere haben bemerkenswerte Fähigkeiten bei der Erzeugung fotorealistischer Bilder gezeigt, die eng mit textuellen Eingaben übereinstimmen. Während die Faszination, visuell beeindruckende Bilder zu erstellen, unbestreitbar ist, geht unser Fokus über bloß ästhetischen Genuss hinaus. Wir streben an, das Potenzial dieser leistungsstarken Modelle in authentischen Designkontexten zu untersuchen. Um dieses Ziel zu erreichen, entwickeln wir DEsignBench, das Testbeispiele enthält, die darauf ausgelegt sind, T2I-Modelle sowohl hinsichtlich ihrer „technischen Designfähigkeit“ als auch ihrer „Designanwendungsszenarien“ zu bewerten. Jede dieser beiden Dimensionen wird durch eine Vielzahl spezifischer Designkategorien unterstützt. Wir untersuchen DALL-E 3 zusammen mit anderen führenden T2I-Modellen auf DEsignBench, was zu einer umfassenden visuellen Galerie für direkte Vergleiche führt. Für das Benchmarking von DEsignBench führen wir menschliche Bewertungen der generierten Bilder in der DEsignBench-Galerie durch, basierend auf den Kriterien Bild-Text-Übereinstimmung, visuelle Ästhetik und Designkreativität. Unsere Bewertung berücksichtigt auch andere spezialisierte Designfähigkeiten, darunter Textdarstellung, Layoutkomposition, Farbharmonie, 3D-Design und Medium-Stil. Neben menschlichen Bewertungen führen wir den ersten automatischen Bildgenerierungsbewerter ein, der von GPT-4V unterstützt wird. Dieser Bewerter liefert Bewertungen, die gut mit menschlichen Urteilen übereinstimmen, dabei leicht reproduzierbar und kosteneffizient sind. Eine hochauflösende Version ist verfügbar unter https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
English
We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored for visual design scenarios. Recent T2I models like DALL-E 3 and others, have demonstrated remarkable capabilities in generating photorealistic images that align closely with textual inputs. While the allure of creating visually captivating images is undeniable, our emphasis extends beyond mere aesthetic pleasure. We aim to investigate the potential of using these powerful models in authentic design contexts. In pursuit of this goal, we develop DEsignBench, which incorporates test samples designed to assess T2I models on both "design technical capability" and "design application scenario." Each of these two dimensions is supported by a diverse set of specific design categories. We explore DALL-E 3 together with other leading T2I models on DEsignBench, resulting in a comprehensive visual gallery for side-by-side comparisons. For DEsignBench benchmarking, we perform human evaluations on generated images in DEsignBench gallery, against the criteria of image-text alignment, visual aesthetic, and design creativity. Our evaluation also considers other specialized design capabilities, including text rendering, layout composition, color harmony, 3D design, and medium style. In addition to human evaluations, we introduce the first automatic image generation evaluator powered by GPT-4V. This evaluator provides ratings that align well with human judgments, while being easily replicable and cost-efficient. A high-resolution version is available at https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=

Summary

AI-Generated Summary

PDF142December 15, 2024