조밀한 블롭 표현을 활용한 구성적 텍스트-이미지 생성
Compositional Text-to-Image Generation with Dense Blob Representations
May 14, 2024
저자: Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat
cs.AI
초록
기존의 텍스트-이미지 모델은 복잡한 텍스트 프롬프트를 따르는 데 어려움을 겪으며, 더 나은 제어 가능성을 위해 추가적인 기반 입력이 필요합니다. 본 연구에서는 장면을 시각적 기본 요소로 분해하는 방법을 제안합니다. 이 요소들은 조밀한 블롭(blob) 표현으로 표시되며, 장면의 세밀한 디테일을 포함하면서도 모듈화 가능하고 인간이 해석하기 쉬우며 구성하기 쉽습니다. 블롭 표현을 기반으로, 우리는 BlobGEN이라는 블롭 기반 텍스트-이미지 확산 모델을 개발하여 조합적 생성을 가능하게 합니다. 특히, 블롭 표현과 시각적 특징 간의 융합을 분리하기 위해 새로운 마스크 교차 주의(masked cross-attention) 모듈을 도입했습니다. 또한, 대규모 언어 모델(LLM)의 조합성을 활용하기 위해 텍스트 프롬프트에서 블롭 표현을 생성하는 새로운 인-컨텍스트 학습(in-context learning) 접근 방식을 소개합니다. 광범위한 실험을 통해 BlobGEN이 MS-COCO에서 우수한 제로샷(zero-shot) 생성 품질과 더 나은 레이아웃 기반 제어 가능성을 달성함을 보여줍니다. LLM을 활용할 경우, 우리의 방법은 조합적 이미지 생성 벤치마크에서 우수한 수치적 및 공간적 정확성을 보입니다. 프로젝트 페이지: https://blobgen-2d.github.io.
English
Existing text-to-image models struggle to follow complex text prompts,
raising the need for extra grounding inputs for better controllability. In this
work, we propose to decompose a scene into visual primitives - denoted as dense
blob representations - that contain fine-grained details of the scene while
being modular, human-interpretable, and easy-to-construct. Based on blob
representations, we develop a blob-grounded text-to-image diffusion model,
termed BlobGEN, for compositional generation. Particularly, we introduce a new
masked cross-attention module to disentangle the fusion between blob
representations and visual features. To leverage the compositionality of large
language models (LLMs), we introduce a new in-context learning approach to
generate blob representations from text prompts. Our extensive experiments show
that BlobGEN achieves superior zero-shot generation quality and better
layout-guided controllability on MS-COCO. When augmented by LLMs, our method
exhibits superior numerical and spatial correctness on compositional image
generation benchmarks. Project page: https://blobgen-2d.github.io.Summary
AI-Generated Summary