ChatPaper.aiChatPaper

UNIMO-G: 멀티모달 조건부 확산을 통한 통합 이미지 생성

UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion

January 24, 2024
저자: Wei Li, Xue Xu, Jiachen Liu, Xinyan Xiao
cs.AI

초록

기존의 텍스트-이미지 확산 모델은 주로 텍스트 프롬프트로부터 이미지를 생성합니다. 그러나 텍스트 설명의 본질적인 간결성은 특정 개체나 장면과 같은 복잡한 세부 사항을 충실히 합성하는 데 어려움을 초래합니다. 본 논문은 텍스트와 시각적 입력이 교차된 다중 모달 프롬프트를 기반으로 작동하며, 텍스트 기반 및 주제 기반 이미지 생성 모두에 통합된 능력을 보여주는 간단한 다중 모달 조건부 확산 프레임워크인 UNIMO-G를 제시합니다. UNIMO-G는 다중 모달 프롬프트를 인코딩하기 위한 다중 모달 대형 언어 모델(MLLM)과 인코딩된 다중 모달 입력을 기반으로 이미지를 생성하기 위한 조건부 노이즈 제거 확산 네트워크라는 두 가지 핵심 구성 요소로 이루어져 있습니다. 본 프레임워크를 효과적으로 학습시키기 위해 두 단계의 학습 전략을 활용합니다: 첫째, 대규모 텍스트-이미지 쌍에 대한 사전 학습을 통해 조건부 이미지 생성 능력을 개발하고, 둘째, 다중 모달 프롬프트를 사용한 지시 튜닝을 통해 통합된 이미지 생성 능력을 달성합니다. 언어 기반 및 이미지 분할을 포함한 잘 설계된 데이터 처리 파이프라인을 사용하여 다중 모달 프롬프트를 구성합니다. UNIMO-G는 텍스트-이미지 생성과 제로샷 주제 기반 합성 모두에서 뛰어난 성능을 보이며, 특히 여러 이미지 개체를 포함한 복잡한 다중 모달 프롬프트로부터 고해상도 이미지를 생성하는 데 매우 효과적입니다.
English
Existing text-to-image diffusion models primarily generate images from text prompts. However, the inherent conciseness of textual descriptions poses challenges in faithfully synthesizing images with intricate details, such as specific entities or scenes. This paper presents UNIMO-G, a simple multimodal conditional diffusion framework that operates on multimodal prompts with interleaved textual and visual inputs, which demonstrates a unified ability for both text-driven and subject-driven image generation. UNIMO-G comprises two core components: a Multimodal Large Language Model (MLLM) for encoding multimodal prompts, and a conditional denoising diffusion network for generating images based on the encoded multimodal input. We leverage a two-stage training strategy to effectively train the framework: firstly pre-training on large-scale text-image pairs to develop conditional image generation capabilities, and then instruction tuning with multimodal prompts to achieve unified image generation proficiency. A well-designed data processing pipeline involving language grounding and image segmentation is employed to construct multi-modal prompts. UNIMO-G excels in both text-to-image generation and zero-shot subject-driven synthesis, and is notably effective in generating high-fidelity images from complex multimodal prompts involving multiple image entities.
PDF123December 15, 2024