ChatPaper.aiChatPaper

MUMU: Geração Multimodal de Imagens por Bootstrapping a partir de Dados de Texto para Imagem

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

June 26, 2024
Autores: William Berman, Alexander Peysakhovich
cs.AI

Resumo

Treinamos um modelo para gerar imagens a partir de prompts multimodais de texto e imagens entrelaçados, como "um homem <imagem de um homem> e seu cachorro <imagem de um cachorro> em um estilo animado <imagem de um desenho animado>." Inicializamos um conjunto de dados multimodal extraindo recortes de imagens semanticamente significativos correspondentes a palavras nas legendas de imagens de dados texto-imagem gerados sinteticamente e disponíveis publicamente. Nosso modelo, MUMU, é composto por um codificador de modelo de visão-linguagem com um decodificador de difusão e é treinado em um único nó GPU 8xH100. Apesar de ser treinado apenas em recortes da mesma imagem, o MUMU aprende a compor entradas de diferentes imagens em uma saída coerente. Por exemplo, uma entrada de uma pessoa realista e um desenho animado resultará na mesma pessoa no estilo de desenho animado, e uma entrada de um sujeito em pé e um patinete resultará no sujeito andando de patinete. Como resultado, nosso modelo generaliza para tarefas como transferência de estilo e consistência de personagens. Nossos resultados mostram a promessa de usar modelos multimodais como controladores de propósito geral para geração de imagens.
English
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.
PDF353November 29, 2024