Instruct-Imagen : Génération d'images avec instruction multi-modale
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Auteurs: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Résumé
Cet article présente instruct-imagen, un modèle qui aborde des tâches hétérogènes de génération d'images et généralise à des tâches non vues auparavant. Nous introduisons *l'instruction multimodale* pour la génération d'images, une représentation de tâche qui articule avec précision une variété d'intentions de génération. Elle utilise le langage naturel pour amalgamer des modalités disparates (par exemple, texte, contour, style, sujet, etc.), de sorte que de nombreuses intentions de génération peuvent être standardisées dans un format uniforme.
Nous construisons ensuite instruct-imagen en affinant un modèle de diffusion texte-à-image pré-entraîné avec un cadre en deux étapes. Tout d'abord, nous adaptons le modèle en utilisant un entraînement enrichi par récupération, afin d'améliorer sa capacité à ancrer sa génération dans un contexte multimodal externe. Ensuite, nous affinons le modèle adapté sur diverses tâches de génération d'images nécessitant une compréhension vision-langage (par exemple, génération pilotée par un sujet, etc.), chacune étant associée à une instruction multimodale encapsulant l'essence de la tâche. Une évaluation humaine sur divers ensembles de données de génération d'images révèle qu'instruct-imagen égale ou dépasse les modèles spécifiques à une tâche précédents dans leur domaine et démontre une généralisation prometteuse à des tâches non vues et plus complexes.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.