ChatPaper.aiChatPaper

MUMU: 텍스트-이미지 데이터를 활용한 멀티모달 이미지 생성 부트스트래핑

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

June 26, 2024
저자: William Berman, Alexander Peysakhovich
cs.AI

초록

우리는 "한 남자와 그의 개가 만화 스타일로 그려진"과 같이 텍스트와 이미지가 교차된 멀티모달 프롬프트로부터 이미지를 생성하는 모델을 학습시켰습니다. 우리는 합성적으로 생성된 텍스트-이미지 데이터와 공개적으로 이용 가능한 데이터의 이미지 캡션에서 단어에 해당하는 의미론적으로 의미 있는 이미지 크롭을 추출하여 멀티모달 데이터셋을 부트스트랩했습니다. 우리의 모델인 MUMU는 비전-언어 모델 인코더와 디퓨전 디코더로 구성되며, 단일 8xH100 GPU 노드에서 학습되었습니다. 동일한 이미지에서 추출한 크롭만으로 학습되었음에도 불구하고, MUMU는 서로 다른 이미지의 입력을 조합하여 일관된 출력을 생성하는 방법을 학습합니다. 예를 들어, 사실적인 사람과 만화 스타일의 입력이 주어지면 동일한 사람을 만화 스타일로 출력하고, 서 있는 대상과 스쿠터가 입력되면 대상이 스쿠터를 타는 모습을 출력합니다. 결과적으로, 우리의 모델은 스타일 전이와 캐릭터 일관성과 같은 작업으로 일반화됩니다. 우리의 결과는 멀티모달 모델을 이미지 생성을 위한 범용 컨트롤러로 사용하는 가능성을 보여줍니다.
English
We train a model to generate images from multimodal prompts of interleaved text and images such as "a <picture of a man> man and his <picture of a dog> dog in an <picture of a cartoon> animated style." We bootstrap a multimodal dataset by extracting semantically meaningful image crops corresponding to words in the image captions of synthetically generated and publicly available text-image data. Our model, MUMU, is composed of a vision-language model encoder with a diffusion decoder and is trained on a single 8xH100 GPU node. Despite being only trained on crops from the same image, MUMU learns to compose inputs from different images into a coherent output. For example, an input of a realistic person and a cartoon will output the same person in the cartoon style, and an input of a standing subject and a scooter will output the subject riding the scooter. As a result, our model generalizes to tasks such as style transfer and character consistency. Our results show the promise of using multimodal models as general purpose controllers for image generation.

Summary

AI-Generated Summary

PDF353November 29, 2024