ChatPaper.aiChatPaper

Instruct-Imagen: Generazione di Immagini con Istruzioni Multi-modali

Instruct-Imagen: Image Generation with Multi-modal Instruction

January 3, 2024
Autori: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI

Abstract

Questo articolo presenta instruct-imagen, un modello che affronta compiti eterogenei di generazione di immagini e generalizza su compiti non visti in precedenza. Introduciamo l'*istruzione multi-modale* per la generazione di immagini, una rappresentazione del compito che articola con precisione una gamma di intenti di generazione. Utilizza il linguaggio naturale per amalgamare modalità disparate (ad esempio, testo, contorni, stile, soggetto, ecc.), in modo che gli abbondanti intenti di generazione possano essere standardizzati in un formato uniforme. Successivamente, costruiamo instruct-imagen ottimizzando un modello di diffusione testo-immagine pre-addestrato con un framework a due fasi. In primo luogo, adattiamo il modello utilizzando l'addestramento potenziato dal recupero, per migliorare le capacità del modello di basare la generazione su un contesto multimodale esterno. In seguito, ottimizziamo il modello adattato su vari compiti di generazione di immagini che richiedono una comprensione visione-linguaggio (ad esempio, generazione guidata dal soggetto, ecc.), ciascuno associato a un'istruzione multi-modale che incapsula l'essenza del compito. La valutazione umana su vari dataset di generazione di immagini rivela che instruct-imagen eguaglia o supera i precedenti modelli specifici per compito nel dominio e dimostra una promettente generalizzazione su compiti non visti e più complessi.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.
PDF323February 8, 2026