MUMU: Arranque de la Generación Multimodal de Imágenes a partir de Datos de Texto a Imagen
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Autores: William Berman, Alexander Peysakhovich
cs.AI
Resumen
Entrenamos un modelo para generar imágenes a partir de indicaciones multimodales que intercalan texto e imágenes, como "un <imagen de un hombre> hombre y su <imagen de un perro> perro en un estilo <imagen de un dibujo animado> animado". Inicializamos un conjunto de datos multimodal extrayendo recortes de imágenes semánticamente significativos que corresponden a palabras en los textos descriptivos de datos sintéticamente generados y disponibles públicamente de texto e imágenes. Nuestro modelo, MUMU, está compuesto por un codificador de modelo de visión-lenguaje con un decodificador de difusión y se entrena en un solo nodo GPU 8xH100. A pesar de ser entrenado únicamente con recortes de la misma imagen, MUMU aprende a combinar entradas de diferentes imágenes en una salida coherente. Por ejemplo, una entrada de una persona realista y un dibujo animado generará a la misma persona en estilo de dibujo animado, y una entrada de un sujeto de pie y un patinete generará al sujeto montando el patinete. Como resultado, nuestro modelo generaliza tareas como la transferencia de estilo y la consistencia de personajes. Nuestros resultados muestran el potencial de usar modelos multimodales como controladores de propósito general para la generación de imágenes.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.Summary
AI-Generated Summary