복합 확산 | 전체 >= Σ부분
Composite Diffusion | whole >= Σparts
July 25, 2023
저자: Vikram Jamwal, Ramaneswaran S
cs.AI
초록
예술가나 그래픽 디자이너에게 장면의 공간적 배치는 중요한 디자인 선택 사항이다. 그러나 기존의 텍스트-이미지 확산 모델은 공간 정보를 통합하는 데 제한된 지원만을 제공한다. 본 논문은 예술가들이 하위 장면들을 조합하여 고품질 이미지를 생성할 수 있도록 하는 수단으로서 컴포지트 디퓨전(Composite Diffusion)을 소개한다. 예술가들은 유연한 자유형 세그먼트 레이아웃을 통해 이러한 하위 장면들의 배치를 지정할 수 있다. 각 하위 장면의 내용은 주로 자연어 텍스트로 설명하고, 추가적으로 참조 이미지나 라인 아트, 낙서, 인간 포즈, 캐니 에지 등의 제어 입력을 활용하여 설명할 수 있다.
우리는 하위 장면을 생성, 조합, 조화시키는 대체 방법을 가능하게 하는 컴포지트 디퓨전을 위한 포괄적이고 모듈화된 방법을 제공한다. 더 나아가, 우리는 합성 이미지가 이미지 품질과 예술가의 의도를 달성하는 데 있어 효과적인지 평가하고자 한다. 기존의 이미지 품질 메트릭은 이미지 합성물에 대한 전체적인 평가가 부족하다는 점을 지적하며, 이를 해결하기 위해 합성 생성과 특히 관련된 새로운 품질 기준을 제안한다.
우리는 우리의 접근 방식이 직관적인 예술 창작 방법을 제공한다고 믿는다. 광범위한 사용자 설문조사와 정량적, 정성적 분석을 통해, 이 방법이 이미지 생성에 대한 공간적, 의미적, 창의적 통제력을 더욱 높일 수 있음을 보여준다. 또한, 우리의 방법은 기본 확산 모델의 아키텍처를 재훈련하거나 수정할 필요가 없으며, 미세 조정된 모델과 플러그 앤 플레이 방식으로 작동할 수 있다.
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.