MUMU: Запуск мультимодальной генерации изображений из данных текст-в-изображение
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data
June 26, 2024
Авторы: William Berman, Alexander Peysakhovich
cs.AI
Аннотация
Мы обучаем модель для генерации изображений из мультимодальных подсказок, включающих в себя чередующийся текст и изображения, такие как "мужчина <изображение мужчины> и его собака <изображение собаки> в анимационном стиле <изображение мультяшного персонажа>". Мы создаем мультимодальный набор данных, извлекая семантически значимые обрезки изображений, соответствующие словам в подписях к изображениям синтетически созданных и общедоступных текстово-изображенческих данных. Наша модель, MUMU, состоит из кодировщика модели видео-языка с диффузионным декодером и обучается на одном узле GPU 8xH100. Несмотря на то, что обучена только на обрезках из одного и того же изображения, MUMU учится объединять входные данные из разных изображений в последовательный результат. Например, ввод реалистичного человека и мультяшного персонажа выведет одного и того же человека в стиле мультяшного персонажа, а ввод стоящего объекта и самоката выведет объект, катающегося на самокате. В результате наша модель обобщается на задачи, такие как перенос стиля и согласованность персонажей. Наши результаты показывают перспективы использования мультимодельных моделей в качестве универсальных контроллеров для генерации изображений.
English
We train a model to generate images from multimodal prompts of interleaved
text and images such as "a <picture of a man> man and his <picture of a dog>
dog in an <picture of a cartoon> animated style." We bootstrap a multimodal
dataset by extracting semantically meaningful image crops corresponding to
words in the image captions of synthetically generated and publicly available
text-image data. Our model, MUMU, is composed of a vision-language model
encoder with a diffusion decoder and is trained on a single 8xH100 GPU node.
Despite being only trained on crops from the same image, MUMU learns to compose
inputs from different images into a coherent output. For example, an input of a
realistic person and a cartoon will output the same person in the cartoon
style, and an input of a standing subject and a scooter will output the subject
riding the scooter. As a result, our model generalizes to tasks such as style
transfer and character consistency. Our results show the promise of using
multimodal models as general purpose controllers for image generation.