Idea2Img: Autoaffinamento Iterativo con GPT-4V(ision) per la Progettazione e Generazione Automatica di Immagini
Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
October 12, 2023
Autori: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang
cs.AI
Abstract
Presentiamo "Idea to Image", un sistema che abilita l'autorifinitura iterativa multimodale con GPT-4V(ision) per la progettazione e generazione automatica di immagini. Gli esseri umani possono identificare rapidamente le caratteristiche di diversi modelli text-to-image (T2I) attraverso esplorazioni iterative. Ciò consente loro di convertire in modo efficiente le proprie idee di generazione di alto livello in prompt T2I efficaci in grado di produrre buone immagini. Investigiamo se i sistemi basati su grandi modelli multimodali (LMM) possano sviluppare analoghe capacità di autorifinitura multimodale che permettano di esplorare modelli o ambienti sconosciuti attraverso tentativi di auto-miglioramento. Idea2Img genera ciclicamente prompt T2I rivisti per sintetizzare immagini bozza e fornisce feedback direzionale per la revisione dei prompt, entrambi condizionati dalla memoria delle caratteristiche del modello T2I esplorato. L'autorifinitura iterativa conferisce a Idea2Img vari vantaggi rispetto ai modelli T2I tradizionali. In particolare, Idea2Img può elaborare idee di input con sequenze intercalate di testo e immagini, seguire idee con istruzioni di progettazione e generare immagini di migliore qualità semantica e visiva. Lo studio sulle preferenze degli utenti convalida l'efficacia dell'autorifinitura iterativa multimodale nella progettazione e generazione automatica di immagini.
English
We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.