ChatPaper.aiChatPaper

Idea2Img: Refinamento Iterativo Automatizado com GPT-4V(ision) para Projeto e Geração de Imagens

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

October 12, 2023
Autores: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI

Resumo

Apresentamos o ``Idea to Image'', um sistema que permite a autorrefinamento multimodal iterativo com GPT-4V(ision) para o design e geração automática de imagens. Humanos podem identificar rapidamente as características de diferentes modelos de texto para imagem (T2I) por meio de explorações iterativas. Isso permite que eles convertam de forma eficiente suas ideias de geração de alto nível em prompts T2I eficazes que podem produzir boas imagens. Investigamos se sistemas baseados em modelos multimodais de grande escala (LMMs) podem desenvolver habilidades análogas de autorrefinamento multimodal que permitam explorar modelos ou ambientes desconhecidos por meio de tentativas de autorrefinamento. O Idea2Img gera ciclicamente prompts T2I revisados para sintetizar imagens preliminares e fornece feedback direcional para a revisão dos prompts, ambos condicionados à sua memória das características do modelo T2I investigado. O autorrefinamento iterativo confere ao Idea2Img várias vantagens em relação aos modelos T2I convencionais. Notavelmente, o Idea2Img pode processar ideias de entrada com sequências intercaladas de texto e imagem, seguir ideias com instruções de design e gerar imagens com melhor qualidade semântica e visual. O estudo de preferência do usuário valida a eficácia do autorrefinamento multimodal iterativo no design e geração automática de imagens.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
PDF186December 15, 2024