MUMU: Multimodale beeldgeneratie opstarten vanuit tekst-naar-beeldgegevens

Samenvatting

We trainen een model om afbeeldingen te genereren vanuit multimodale prompts van afwisselende tekst en afbeeldingen, zoals "een <afbeelding van een man> man en zijn <afbeelding van een hond> hond in een <afbeelding van een cartoon> geanimeerde stijl." We bootstrappen een multimodale dataset door semantisch betekenisvolle beelduitsneden te extraheren die overeenkomen met woorden in de beeldbijschriften van synthetisch gegenereerde en publiek beschikbare tekst-afbeelding data. Ons model, MUMU, bestaat uit een vision-language model encoder met een diffusion decoder en wordt getraind op een enkele 8xH100 GPU-node. Ondanks dat het alleen is getraind op uitsneden van dezelfde afbeelding, leert MUMU inputs van verschillende afbeeldingen samen te voegen tot een coherente output. Bijvoorbeeld, een input van een realistische persoon en een cartoon resulteert in dezelfde persoon in de cartoonstijl, en een input van een staand onderwerp en een scooter resulteert in het onderwerp dat op de scooter rijdt. Hierdoor generaliseert ons model naar taken zoals stijloverdracht en karakterconsistentie. Onze resultaten tonen de belofte van het gebruik van multimodale modellen als algemene controllers voor beeldgeneratie.

English

We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.

MUMU: Multimodale beeldgeneratie opstarten vanuit tekst-naar-beeldgegevens

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Samenvatting

Support