MUMU : Amorçage de la génération d'images multimodales à partir de données texte-à-image
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Auteurs: William Berman, Alexander Peysakhovich
cs.AI
Résumé
Nous entraînons un modèle à générer des images à partir de prompts multimodaux combinant du texte et des images, tels que "un <image d'un homme> homme et son <image d'un chien> chien dans un style <image d'un dessin animé> animé." Nous constituons un ensemble de données multimodal en extrayant des extraits d'images sémantiquement significatifs correspondant aux mots des légendes d'images issues de données texte-image générées de manière synthétique et disponibles publiquement. Notre modèle, MUMU, est composé d'un encodeur de modèle vision-langage associé à un décodeur de diffusion, et est entraîné sur un seul nœud GPU 8xH100. Bien qu'il ne soit entraîné que sur des extraits provenant de la même image, MUMU apprend à composer des entrées provenant de différentes images pour produire une sortie cohérente. Par exemple, une entrée comprenant une personne réaliste et un dessin animé produira la même personne dans le style du dessin animé, et une entrée comprenant un sujet debout et un scooter produira le sujet en train de conduire le scooter. En conséquence, notre modèle se généralise à des tâches telles que le transfert de style et la cohérence des personnages. Nos résultats montrent le potentiel des modèles multimodaux en tant que contrôleurs polyvalents pour la génération d'images.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.Summary
AI-Generated Summary