Instruct-Imagen: Geração de Imagens com Instrução Multimodal
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Autores: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Resumo
Este artigo apresenta o instruct-imagen, um modelo que aborda tarefas heterogêneas de geração de imagens e generaliza para tarefas não vistas. Introduzimos a *instrução multimodal* para geração de imagens, uma representação de tarefa que articula uma variedade de intenções de geração com precisão. Ela utiliza linguagem natural para amalgamar modalidades distintas (por exemplo, texto, borda, estilo, sujeito, etc.), de modo que diversas intenções de geração possam ser padronizadas em um formato uniforme.
Em seguida, construímos o instruct-imagen ajustando um modelo de difusão texto-para-imagem pré-treinado com uma estrutura de duas etapas. Primeiro, adaptamos o modelo usando o treinamento aumentado por recuperação, para aprimorar a capacidade do modelo de fundamentar sua geração em contextos multimodais externos. Posteriormente, ajustamos o modelo adaptado em diversas tarefas de geração de imagens que exigem compreensão visão-linguagem (por exemplo, geração orientada por sujeito, etc.), cada uma emparelhada com uma instrução multimodal que encapsula a essência da tarefa. A avaliação humana em vários conjuntos de dados de geração de imagens revela que o instruct-imagen iguala ou supera modelos anteriores específicos para tarefas em seu domínio e demonstra uma generalização promissora para tarefas não vistas e mais complexas.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.