텍스트-이미지 확산 모델 마스터하기: 멀티모달 LLM을 활용한 재캡셔닝, 계획 및 생성
Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs
January 22, 2024
저자: Ling Yang, Zhaochen Yu, Chenlin Meng, Minkai Xu, Stefano Ermon, Bin Cui
cs.AI
초록
디퓨전 모델은 텍스트-이미지 생성 및 편집 분야에서 뛰어난 성능을 보여왔습니다. 그러나 기존 방법들은 다수의 객체와 속성, 관계를 포함하는 복잡한 텍스트 프롬프트를 처리할 때 어려움을 겪는 경우가 많습니다. 본 논문에서는 이러한 문제를 해결하기 위해, 다중모달 LLM의 강력한 사고 연쇄(chain-of-thought) 추론 능력을 활용하여 텍스트-이미지 디퓨전 모델의 구성성을 향상시키는 새로운 학습 없이도 사용 가능한 텍스트-이미지 생성/편집 프레임워크인 Recaption, Plan and Generate(RPG)를 제안합니다. 우리의 접근 방식은 MLLM을 전역 플래너로 사용하여 복잡한 이미지 생성 과정을 하위 영역 내에서 더 단순한 다수의 생성 작업으로 분해합니다. 또한, 지역별 구성적 생성을 가능하게 하는 보완적 지역 디퓨전을 제안합니다. 더 나아가, 제안된 RPG 프레임워크 내에서 텍스트 기반 이미지 생성과 편집을 폐루프 방식으로 통합함으로써 일반화 능력을 향상시켰습니다. 광범위한 실험을 통해 우리의 RPG가 DALL-E 3 및 SDXL을 포함한 최신 텍스트-이미지 디퓨전 모델들을 능가하며, 특히 다중 범주 객체 구성 및 텍스트-이미지 의미 정렬에서 우수한 성능을 보임을 입증했습니다. 특히, RPG 프레임워크는 MiniGPT-4와 같은 다양한 MLLM 아키텍처 및 ControlNet과 같은 디퓨전 백본과의 광범위한 호환성을 보여줍니다. 우리의 코드는 https://github.com/YangLing0818/RPG-DiffusionMaster에서 확인할 수 있습니다.
English
Diffusion models have exhibit exceptional performance in text-to-image
generation and editing. However, existing methods often face challenges when
handling complex text prompts that involve multiple objects with multiple
attributes and relationships. In this paper, we propose a brand new
training-free text-to-image generation/editing framework, namely Recaption,
Plan and Generate (RPG), harnessing the powerful chain-of-thought reasoning
ability of multimodal LLMs to enhance the compositionality of text-to-image
diffusion models. Our approach employs the MLLM as a global planner to
decompose the process of generating complex images into multiple simpler
generation tasks within subregions. We propose complementary regional diffusion
to enable region-wise compositional generation. Furthermore, we integrate
text-guided image generation and editing within the proposed RPG in a
closed-loop fashion, thereby enhancing generalization ability. Extensive
experiments demonstrate our RPG outperforms state-of-the-art text-to-image
diffusion models, including DALL-E 3 and SDXL, particularly in multi-category
object composition and text-image semantic alignment. Notably, our RPG
framework exhibits wide compatibility with various MLLM architectures (e.g.,
MiniGPT-4) and diffusion backbones (e.g., ControlNet). Our code is available
at: https://github.com/YangLing0818/RPG-DiffusionMaster