Instruct-Imagen: Geração de Imagens com Instrução Multimodal

Resumo

Este artigo apresenta o instruct-imagen, um modelo que aborda tarefas heterogêneas de geração de imagens e generaliza para tarefas não vistas. Introduzimos a *instrução multimodal* para geração de imagens, uma representação de tarefa que articula uma variedade de intenções de geração com precisão. Ela utiliza linguagem natural para amalgamar modalidades distintas (por exemplo, texto, borda, estilo, sujeito, etc.), de modo que diversas intenções de geração possam ser padronizadas em um formato uniforme. Em seguida, construímos o instruct-imagen ajustando um modelo de difusão texto-para-imagem pré-treinado com uma estrutura de duas etapas. Primeiro, adaptamos o modelo usando o treinamento aumentado por recuperação, para aprimorar a capacidade do modelo de fundamentar sua geração em contextos multimodais externos. Posteriormente, ajustamos o modelo adaptado em diversas tarefas de geração de imagens que exigem compreensão visão-linguagem (por exemplo, geração orientada por sujeito, etc.), cada uma emparelhada com uma instrução multimodal que encapsula a essência da tarefa. A avaliação humana em vários conjuntos de dados de geração de imagens revela que o instruct-imagen iguala ou supera modelos anteriores específicos para tarefas em seu domínio e demonstra uma generalização promissora para tarefas não vistas e mais complexas.

English

This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.

Instruct-Imagen: Geração de Imagens com Instrução Multimodal

Instruct-Imagen: Image Generation with Multi-modal Instruction

Resumo

Support