Idea2Img: Refinamiento Iterativo Automatizado con GPT-4V(isión) para el Diseño y Generación de Imágenes
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
October 12, 2023
Autores: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI
Resumen
Presentamos "Idea to Image", un sistema que permite la autorrefinación multimodal iterativa con GPT-4V(isión) para el diseño y generación automática de imágenes. Los humanos pueden identificar rápidamente las características de diferentes modelos de texto a imagen (T2I) mediante exploraciones iterativas. Esto les permite convertir eficientemente sus ideas de generación de alto nivel en indicaciones T2I efectivas que pueden producir buenas imágenes. Investigamos si los sistemas basados en modelos multimodales grandes (LMMs) pueden desarrollar habilidades análogas de autorrefinación multimodal que permitan explorar modelos o entornos desconocidos mediante intentos de autorrefinación. Idea2Img genera cíclicamente indicaciones T2I revisadas para sintetizar imágenes preliminares y proporciona retroalimentación direccional para la revisión de indicaciones, todo ello condicionado por su memoria de las características del modelo T2I explorado. La autorrefinación iterativa otorga a Idea2Img varias ventajas sobre los modelos T2I convencionales. En particular, Idea2Img puede procesar ideas de entrada con secuencias intercaladas de texto e imagen, seguir ideas con instrucciones de diseño y generar imágenes de mejor calidad semántica y visual. El estudio de preferencia del usuario valida la eficacia de la autorrefinación multimodal iterativa en el diseño y generación automática de imágenes.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.