Idea2Img: Итеративное самоусовершенствование с GPT-4V(ision) для автоматического проектирования и генерации изображений
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
October 12, 2023
Авторы: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI
Аннотация
Мы представляем систему «Idea to Image», которая позволяет осуществлять многомодальное итеративное самоусовершенствование с использованием GPT-4V(ision) для автоматического проектирования и генерации изображений. Люди могут быстро определять характеристики различных моделей преобразования текста в изображение (T2I) с помощью итеративного исследования. Это позволяет им эффективно преобразовывать свои высокоуровневые идеи генерации в эффективные T2I-запросы, способные создавать качественные изображения. Мы исследуем, могут ли системы, основанные на крупных многомодальных моделях (LMM), развить аналогичные способности к многомодальному самоусовершенствованию, которые позволяют исследовать неизвестные модели или среды через саморефлексирующие попытки. Idea2Img циклически генерирует пересмотренные T2I-запросы для синтеза черновых изображений и предоставляет направленную обратную связь для пересмотра запросов, основываясь на своей памяти о характеристиках исследуемой T2I-модели. Итеративное самоусовершенствование предоставляет Idea2Img различные преимущества по сравнению с базовыми T2I-моделями. В частности, Idea2Img может обрабатывать входные идеи с чередующимися последовательностями изображений и текста, следовать идеям с инструкциями по дизайну и генерировать изображения с лучшими семантическими и визуальными качествами. Исследование пользовательских предпочтений подтверждает эффективность многомодального итеративного самоусовершенствования в автоматическом проектировании и генерации изображений.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.