ChatPaper.aiChatPaper

Idea2Img: Iteratieve Zelfverfijning met GPT-4V(ision) voor Automatisch Beeldontwerp en -generatie

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

October 12, 2023
Auteurs: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI

Samenvatting

We introduceren ``Idea to Image'', een systeem dat multimodale iteratieve zelfverfijning mogelijk maakt met GPT-4V(ision) voor automatisch beeldontwerp en -generatie. Mensen kunnen snel de kenmerken van verschillende tekst-naar-beeld (T2I) modellen identificeren via iteratieve verkenningen. Dit stelt hen in staat om hun hoogwaardige generatie-ideeën efficiënt om te zetten in effectieve T2I-prompts die goede beelden kunnen produceren. We onderzoeken of systemen gebaseerd op grote multimodale modellen (LMMs) analoge multimodale zelfverfijningsvaardigheden kunnen ontwikkelen die het mogelijk maken om onbekende modellen of omgevingen te verkennen via zelfverfijnende pogingen. Idea2Img genereert cyclisch herziene T2I-prompts om conceptbeelden te synthetiseren en biedt directionele feedback voor promptherziening, beide gebaseerd op zijn geheugen van de kenmerken van het onderzochte T2I-model. De iteratieve zelfverfijning biedt Idea2Img verschillende voordelen ten opzichte van standaard T2I-modellen. Met name kan Idea2Img invoerideeën verwerken met afwisselende beeld-tekstreeksen, ideeën volgen met ontwerpinstructies, en beelden genereren met betere semantische en visuele kwaliteiten. De gebruikersvoorkeurstudie valideert de effectiviteit van multimodale iteratieve zelfverfijning op automatisch beeldontwerp en -generatie.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
PDF186December 15, 2024