MUMU: Multimodale beeldgeneratie opstarten vanuit tekst-naar-beeldgegevens
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Auteurs: William Berman, Alexander Peysakhovich
cs.AI
Samenvatting
We trainen een model om afbeeldingen te genereren vanuit multimodale prompts van afwisselende tekst en afbeeldingen, zoals "een <afbeelding van een man> man en zijn <afbeelding van een hond> hond in een <afbeelding van een cartoon> geanimeerde stijl." We bootstrappen een multimodale dataset door semantisch betekenisvolle beelduitsneden te extraheren die overeenkomen met woorden in de beeldbijschriften van synthetisch gegenereerde en publiek beschikbare tekst-afbeelding data. Ons model, MUMU, bestaat uit een vision-language model encoder met een diffusion decoder en wordt getraind op een enkele 8xH100 GPU-node. Ondanks dat het alleen is getraind op uitsneden van dezelfde afbeelding, leert MUMU inputs van verschillende afbeeldingen samen te voegen tot een coherente output. Bijvoorbeeld, een input van een realistische persoon en een cartoon resulteert in dezelfde persoon in de cartoonstijl, en een input van een staand onderwerp en een scooter resulteert in het onderwerp dat op de scooter rijdt. Hierdoor generaliseert ons model naar taken zoals stijloverdracht en karakterconsistentie. Onze resultaten tonen de belofte van het gebruik van multimodale modellen als algemene controllers voor beeldgeneratie.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.