ChatPaper.aiChatPaper

MUMU: Avvio della Generazione di Immagini Multimodali dai Dati Testo-Immagine

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

June 26, 2024
Autori: William Berman, Alexander Peysakhovich
cs.AI

Abstract

Addestriamo un modello per generare immagini a partire da prompt multimodali composti da testo e immagini intervallati, come "un <immagine di un uomo> uomo e il suo <immagine di un cane> cane in uno stile <immagine di un cartone animato> animato." Costruiamo un dataset multimodale estraendo ritagli di immagini semanticamente significativi corrispondenti alle parole nelle descrizioni delle immagini di dati testo-immagine sinteticamente generati e disponibili pubblicamente. Il nostro modello, MUMU, è composto da un encoder di modello visione-linguaggio con un decoder di diffusione ed è addestrato su un singolo nodo GPU 8xH100. Nonostante sia addestrato solo su ritagli della stessa immagine, MUMU impara a comporre input provenienti da immagini diverse in un output coerente. Ad esempio, un input di una persona realistica e un cartone animato produrrà la stessa persona nello stile del cartone animato, e un input di un soggetto in piedi e uno scooter produrrà il soggetto che guida lo scooter. Di conseguenza, il nostro modello si generalizza a compiti come il trasferimento di stile e la coerenza dei personaggi. I nostri risultati dimostrano il potenziale dell'uso di modelli multimodali come controller generici per la generazione di immagini.
English
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.
PDF343November 29, 2024