MUMU: Geração Multimodal de Imagens por Bootstrapping a partir de Dados de Texto para Imagem
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Autores: William Berman, Alexander Peysakhovich
cs.AI
Resumo
Treinamos um modelo para gerar imagens a partir de prompts multimodais de texto e imagens entrelaçados, como "um homem <imagem de um homem> e seu cachorro <imagem de um cachorro> em um estilo animado <imagem de um desenho animado>." Inicializamos um conjunto de dados multimodal extraindo recortes de imagens semanticamente significativos correspondentes a palavras nas legendas de imagens de dados texto-imagem gerados sinteticamente e disponíveis publicamente. Nosso modelo, MUMU, é composto por um codificador de modelo de visão-linguagem com um decodificador de difusão e é treinado em um único nó GPU 8xH100. Apesar de ser treinado apenas em recortes da mesma imagem, o MUMU aprende a compor entradas de diferentes imagens em uma saída coerente. Por exemplo, uma entrada de uma pessoa realista e um desenho animado resultará na mesma pessoa no estilo de desenho animado, e uma entrada de um sujeito em pé e um patinete resultará no sujeito andando de patinete. Como resultado, nosso modelo generaliza para tarefas como transferência de estilo e consistência de personagens. Nossos resultados mostram a promessa de usar modelos multimodais como controladores de propósito geral para geração de imagens.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.