ChatPaper.aiChatPaper

MUMU: Запуск мультимодальной генерации изображений из данных текст-в-изображение

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

June 26, 2024
Авторы: William Berman, Alexander Peysakhovich
cs.AI

Аннотация

Мы обучаем модель для генерации изображений из мультимодальных подсказок, включающих в себя чередующийся текст и изображения, такие как "мужчина <изображение мужчины> и его собака <изображение собаки> в анимационном стиле <изображение мультяшного персонажа>". Мы создаем мультимодальный набор данных, извлекая семантически значимые обрезки изображений, соответствующие словам в подписях к изображениям синтетически созданных и общедоступных текстово-изображенческих данных. Наша модель, MUMU, состоит из кодировщика модели видео-языка с диффузионным декодером и обучается на одном узле GPU 8xH100. Несмотря на то, что обучена только на обрезках из одного и того же изображения, MUMU учится объединять входные данные из разных изображений в последовательный результат. Например, ввод реалистичного человека и мультяшного персонажа выведет одного и того же человека в стиле мультяшного персонажа, а ввод стоящего объекта и самоката выведет объект, катающегося на самокате. В результате наша модель обобщается на задачи, такие как перенос стиля и согласованность персонажей. Наши результаты показывают перспективы использования мультимодельных моделей в качестве универсальных контроллеров для генерации изображений.
English
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.
PDF353November 29, 2024