MUMU: Avvio della Generazione di Immagini Multimodali dai Dati Testo-Immagine
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Autori: William Berman, Alexander Peysakhovich
cs.AI
Abstract
Addestriamo un modello per generare immagini a partire da prompt multimodali composti da testo e immagini intervallati, come "un <immagine di un uomo> uomo e il suo <immagine di un cane> cane in uno stile <immagine di un cartone animato> animato." Costruiamo un dataset multimodale estraendo ritagli di immagini semanticamente significativi corrispondenti alle parole nelle descrizioni delle immagini di dati testo-immagine sinteticamente generati e disponibili pubblicamente. Il nostro modello, MUMU, è composto da un encoder di modello visione-linguaggio con un decoder di diffusione ed è addestrato su un singolo nodo GPU 8xH100. Nonostante sia addestrato solo su ritagli della stessa immagine, MUMU impara a comporre input provenienti da immagini diverse in un output coerente. Ad esempio, un input di una persona realistica e un cartone animato produrrà la stessa persona nello stile del cartone animato, e un input di un soggetto in piedi e uno scooter produrrà il soggetto che guida lo scooter. Di conseguenza, il nostro modello si generalizza a compiti come il trasferimento di stile e la coerenza dei personaggi. I nostri risultati dimostrano il potenziale dell'uso di modelli multimodali come controller generici per la generazione di immagini.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.