ChatPaper.aiChatPaper

Idea2Img : Auto-révision itérative avec GPT-4V(ision) pour la conception et la génération automatique d'images

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

October 12, 2023
Auteurs: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI

Résumé

Nous présentons « Idea to Image », un système permettant un auto-affinement itératif multimodal avec GPT-4V(ision) pour la conception et la génération automatique d'images. Les humains peuvent rapidement identifier les caractéristiques des différents modèles de texte-à-image (T2I) grâce à des explorations itératives. Cela leur permet de convertir efficacement leurs idées de génération de haut niveau en prompts T2I efficaces capables de produire de bonnes images. Nous étudions si les systèmes basés sur des modèles multimodaux de grande taille (LMMs) peuvent développer des capacités d'auto-affinement multimodales analogues, permettant d'explorer des modèles ou environnements inconnus via des essais auto-affinés. Idea2Img génère cycliquement des prompts T2I révisés pour synthétiser des images provisoires et fournit un retour d'orientation pour la révision des prompts, le tout en fonction de sa mémoire des caractéristiques du modèle T2I exploré. L'auto-affinement itératif confère à Idea2Img divers avantages par rapport aux modèles T2I classiques. Notamment, Idea2Img peut traiter des idées d'entrée avec des séquences entrelacées d'images et de texte, suivre des idées avec des instructions de conception, et générer des images de meilleure qualité sémantique et visuelle. L'étude de préférence utilisateur valide l'efficacité de l'auto-affinement itératif multimodal pour la conception et la génération automatique d'images.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative self-refinement with GPT-4V(ision) for automatic image design and generation. Humans can quickly identify the characteristics of different text-to-image (T2I) models via iterative explorations. This enables them to efficiently convert their high-level generation ideas into effective T2I prompts that can produce good images. We investigate if systems based on large multimodal models (LMMs) can develop analogous multimodal self-refinement abilities that enable exploring unknown models or environments via self-refining tries. Idea2Img cyclically generates revised T2I prompts to synthesize draft images, and provides directional feedback for prompt revision, both conditioned on its memory of the probed T2I model's characteristics. The iterative self-refinement brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img can process input ideas with interleaved image-text sequences, follow ideas with design instructions, and generate images of better semantic and visual qualities. The user preference study validates the efficacy of multimodal iterative self-refinement on automatic image design and generation.
PDF186December 15, 2024