ChatPaper.aiChatPaper

MUMU: Arranque de la Generación Multimodal de Imágenes a partir de Datos de Texto a Imagen

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

June 26, 2024
Autores: William Berman, Alexander Peysakhovich
cs.AI

Resumen

Entrenamos un modelo para generar imágenes a partir de indicaciones multimodales que intercalan texto e imágenes, como "un <imagen de un hombre> hombre y su <imagen de un perro> perro en un estilo <imagen de un dibujo animado> animado". Inicializamos un conjunto de datos multimodal extrayendo recortes de imágenes semánticamente significativos que corresponden a palabras en los textos descriptivos de datos sintéticamente generados y disponibles públicamente de texto e imágenes. Nuestro modelo, MUMU, está compuesto por un codificador de modelo de visión-lenguaje con un decodificador de difusión y se entrena en un solo nodo GPU 8xH100. A pesar de ser entrenado únicamente con recortes de la misma imagen, MUMU aprende a combinar entradas de diferentes imágenes en una salida coherente. Por ejemplo, una entrada de una persona realista y un dibujo animado generará a la misma persona en estilo de dibujo animado, y una entrada de un sujeto de pie y un patinete generará al sujeto montando el patinete. Como resultado, nuestro modelo generaliza tareas como la transferencia de estilo y la consistencia de personajes. Nuestros resultados muestran el potencial de usar modelos multimodales como controladores de propósito general para la generación de imágenes.
English
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.
PDF353November 29, 2024