Idea2Img: Refinamento Iterativo Automatizado com GPT-4V(ision) para Projeto e Geração de Imagens
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
October 12, 2023
Autores: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI
Resumo
Apresentamos o ``Idea to Image'', um sistema que permite a autorrefinamento multimodal iterativo com GPT-4V(ision) para o design e geração automática de imagens. Humanos podem identificar rapidamente as características de diferentes modelos de texto para imagem (T2I) por meio de explorações iterativas. Isso permite que eles convertam de forma eficiente suas ideias de geração de alto nível em prompts T2I eficazes que podem produzir boas imagens. Investigamos se sistemas baseados em modelos multimodais de grande escala (LMMs) podem desenvolver habilidades análogas de autorrefinamento multimodal que permitam explorar modelos ou ambientes desconhecidos por meio de tentativas de autorrefinamento. O Idea2Img gera ciclicamente prompts T2I revisados para sintetizar imagens preliminares e fornece feedback direcional para a revisão dos prompts, ambos condicionados à sua memória das características do modelo T2I investigado. O autorrefinamento iterativo confere ao Idea2Img várias vantagens em relação aos modelos T2I convencionais. Notavelmente, o Idea2Img pode processar ideias de entrada com sequências intercaladas de texto e imagem, seguir ideias com instruções de design e gerar imagens com melhor qualidade semântica e visual. O estudo de preferência do usuário valida a eficácia do autorrefinamento multimodal iterativo no design e geração automática de imagens.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.