DEsignBench: Erforschung und Benchmarking von DALL-E 3 zur Visualisierung von Design
DEsignBench: Exploring and Benchmarking DALL-E 3 for Imagining Visual Design
October 23, 2023
Autoren: Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Lijuan Wang
cs.AI
Zusammenfassung
Wir stellen DEsignBench vor, einen Text-zu-Bild (T2I)-Generierungs-Benchmark, der speziell für visuelle Design-Szenarien entwickelt wurde. Aktuelle T2I-Modelle wie DALL-E 3 und andere haben bemerkenswerte Fähigkeiten bei der Erzeugung fotorealistischer Bilder gezeigt, die eng mit textuellen Eingaben übereinstimmen. Während die Faszination, visuell beeindruckende Bilder zu erstellen, unbestreitbar ist, geht unser Fokus über bloß ästhetischen Genuss hinaus. Wir streben an, das Potenzial dieser leistungsstarken Modelle in authentischen Designkontexten zu untersuchen. Um dieses Ziel zu erreichen, entwickeln wir DEsignBench, das Testbeispiele enthält, die darauf ausgelegt sind, T2I-Modelle sowohl hinsichtlich ihrer „technischen Designfähigkeit“ als auch ihrer „Designanwendungsszenarien“ zu bewerten. Jede dieser beiden Dimensionen wird durch eine Vielzahl spezifischer Designkategorien unterstützt. Wir untersuchen DALL-E 3 zusammen mit anderen führenden T2I-Modellen auf DEsignBench, was zu einer umfassenden visuellen Galerie für direkte Vergleiche führt. Für das Benchmarking von DEsignBench führen wir menschliche Bewertungen der generierten Bilder in der DEsignBench-Galerie durch, basierend auf den Kriterien Bild-Text-Übereinstimmung, visuelle Ästhetik und Designkreativität. Unsere Bewertung berücksichtigt auch andere spezialisierte Designfähigkeiten, darunter Textdarstellung, Layoutkomposition, Farbharmonie, 3D-Design und Medium-Stil. Neben menschlichen Bewertungen führen wir den ersten automatischen Bildgenerierungsbewerter ein, der von GPT-4V unterstützt wird. Dieser Bewerter liefert Bewertungen, die gut mit menschlichen Urteilen übereinstimmen, dabei leicht reproduzierbar und kosteneffizient sind. Eine hochauflösende Version ist verfügbar unter
https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
English
We introduce DEsignBench, a text-to-image (T2I) generation benchmark tailored
for visual design scenarios. Recent T2I models like DALL-E 3 and others, have
demonstrated remarkable capabilities in generating photorealistic images that
align closely with textual inputs. While the allure of creating visually
captivating images is undeniable, our emphasis extends beyond mere aesthetic
pleasure. We aim to investigate the potential of using these powerful models in
authentic design contexts. In pursuit of this goal, we develop DEsignBench,
which incorporates test samples designed to assess T2I models on both "design
technical capability" and "design application scenario." Each of these two
dimensions is supported by a diverse set of specific design categories. We
explore DALL-E 3 together with other leading T2I models on DEsignBench,
resulting in a comprehensive visual gallery for side-by-side comparisons. For
DEsignBench benchmarking, we perform human evaluations on generated images in
DEsignBench gallery, against the criteria of image-text alignment, visual
aesthetic, and design creativity. Our evaluation also considers other
specialized design capabilities, including text rendering, layout composition,
color harmony, 3D design, and medium style. In addition to human evaluations,
we introduce the first automatic image generation evaluator powered by GPT-4V.
This evaluator provides ratings that align well with human judgments, while
being easily replicable and cost-efficient. A high-resolution version is
available at
https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=Summary
AI-Generated Summary