Instruct-Imagen: Generazione di Immagini con Istruzioni Multi-modali
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Autori: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Abstract
Questo articolo presenta instruct-imagen, un modello che affronta compiti eterogenei di generazione di immagini e generalizza su compiti non visti in precedenza. Introduciamo l'*istruzione multi-modale* per la generazione di immagini, una rappresentazione del compito che articola con precisione una gamma di intenti di generazione. Utilizza il linguaggio naturale per amalgamare modalità disparate (ad esempio, testo, contorni, stile, soggetto, ecc.), in modo che gli abbondanti intenti di generazione possano essere standardizzati in un formato uniforme.
Successivamente, costruiamo instruct-imagen ottimizzando un modello di diffusione testo-immagine pre-addestrato con un framework a due fasi. In primo luogo, adattiamo il modello utilizzando l'addestramento potenziato dal recupero, per migliorare le capacità del modello di basare la generazione su un contesto multimodale esterno. In seguito, ottimizziamo il modello adattato su vari compiti di generazione di immagini che richiedono una comprensione visione-linguaggio (ad esempio, generazione guidata dal soggetto, ecc.), ciascuno associato a un'istruzione multi-modale che incapsula l'essenza del compito. La valutazione umana su vari dataset di generazione di immagini rivela che instruct-imagen eguaglia o supera i precedenti modelli specifici per compito nel dominio e dimostra una promettente generalizzazione su compiti non visti e più complessi.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.