Instruct-Imagen: Generación de imágenes con instrucciones multimodales
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Autores: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Resumen
Este artículo presenta instruct-imagen, un modelo que aborda tareas heterogéneas de generación de imágenes y generaliza a tareas no vistas. Introducimos la *instrucción multimodal* para la generación de imágenes, una representación de tareas que articula con precisión una variedad de intenciones de generación. Utiliza lenguaje natural para amalgamar modalidades dispares (por ejemplo, texto, bordes, estilo, sujeto, etc.), de modo que las abundantes intenciones de generación puedan estandarizarse en un formato uniforme.
Luego, construimos instruct-imagen ajustando un modelo de difusión de texto a imagen preentrenado con un marco de dos etapas. Primero, adaptamos el modelo utilizando entrenamiento aumentado con recuperación, para mejorar la capacidad del modelo de basar su generación en un contexto multimodal externo. Posteriormente, ajustamos el modelo adaptado en diversas tareas de generación de imágenes que requieren comprensión visión-lenguaje (por ejemplo, generación impulsada por sujetos, etc.), cada una emparejada con una instrucción multimodal que encapsula la esencia de la tarea. La evaluación humana en varios conjuntos de datos de generación de imágenes revela que instruct-imagen iguala o supera a modelos previos específicos de tareas dentro de su dominio y demuestra una prometedora generalización a tareas no vistas y más complejas.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.