ChatPaper.aiChatPaper

Idea2Img: Iterative Selbstverfeinerung mit GPT-4V(ision) zur automatischen Bildgestaltung und -generierung

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

October 12, 2023
Autoren: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI

Zusammenfassung

Wir stellen „Idea to Image“ vor, ein System, das multimodale iterative Selbstverfeinerung mit GPT-4V(ision) für die automatische Bildgestaltung und -generierung ermöglicht. Menschen können schnell die Eigenschaften verschiedener Text-zu-Bild (T2I)-Modelle durch iterative Erkundungen identifizieren. Dies ermöglicht es ihnen, ihre hochrangigen Generierungsideen effizient in effektive T2I-Prompts umzuwandeln, die gute Bilder erzeugen können. Wir untersuchen, ob Systeme, die auf großen multimodalen Modellen (LMMs) basieren, analoge multimodale Selbstverfeinerungsfähigkeiten entwickeln können, die es ermöglichen, unbekannte Modelle oder Umgebungen durch selbstverfeinernde Versuche zu erkunden. Idea2Img generiert zyklisch überarbeitete T2I-Prompts, um Entwurfsbilder zu synthetisieren, und liefert gerichtetes Feedback für die Prompt-Überarbeitung, beides basierend auf seinem Gedächtnis der charakteristischen Eigenschaften des untersuchten T2I-Modells. Die iterative Selbstverfeinerung bringt Idea2Img verschiedene Vorteile gegenüber herkömmlichen T2I-Modellen. Insbesondere kann Idea2Img Eingabeideen mit verschachtelten Bild-Text-Sequenzen verarbeiten, Ideen mit Gestaltungsanweisungen folgen und Bilder mit besserer semantischer und visueller Qualität erzeugen. Die Benutzerpräferenzstudie bestätigt die Wirksamkeit der multimodalen iterativen Selbstverfeinerung bei der automatischen Bildgestaltung und -generierung.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
PDF186December 15, 2024