Idea2Img: Iterative Selbstverfeinerung mit GPT-4V(ision) zur automatischen Bildgestaltung und -generierung
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
October 12, 2023
Autoren: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI
Zusammenfassung
Wir stellen „Idea to Image“ vor, ein System, das multimodale iterative Selbstverfeinerung mit GPT-4V(ision) für die automatische Bildgestaltung und -generierung ermöglicht. Menschen können schnell die Eigenschaften verschiedener Text-zu-Bild (T2I)-Modelle durch iterative Erkundungen identifizieren. Dies ermöglicht es ihnen, ihre hochrangigen Generierungsideen effizient in effektive T2I-Prompts umzuwandeln, die gute Bilder erzeugen können. Wir untersuchen, ob Systeme, die auf großen multimodalen Modellen (LMMs) basieren, analoge multimodale Selbstverfeinerungsfähigkeiten entwickeln können, die es ermöglichen, unbekannte Modelle oder Umgebungen durch selbstverfeinernde Versuche zu erkunden. Idea2Img generiert zyklisch überarbeitete T2I-Prompts, um Entwurfsbilder zu synthetisieren, und liefert gerichtetes Feedback für die Prompt-Überarbeitung, beides basierend auf seinem Gedächtnis der charakteristischen Eigenschaften des untersuchten T2I-Modells. Die iterative Selbstverfeinerung bringt Idea2Img verschiedene Vorteile gegenüber herkömmlichen T2I-Modellen. Insbesondere kann Idea2Img Eingabeideen mit verschachtelten Bild-Text-Sequenzen verarbeiten, Ideen mit Gestaltungsanweisungen folgen und Bilder mit besserer semantischer und visueller Qualität erzeugen. Die Benutzerpräferenzstudie bestätigt die Wirksamkeit der multimodalen iterativen Selbstverfeinerung bei der automatischen Bildgestaltung und -generierung.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.