複合拡散 | 全体 >= 部分の総和
Composite Diffusion | whole >= Σparts
July 25, 2023
著者: Vikram Jamwal, Ramaneswaran S
cs.AI
要旨
アーティストやグラフィックデザイナーにとって、シーンの空間レイアウトは重要なデザイン選択です。しかし、既存のテキストから画像への拡散モデルは、空間情報の組み込みに対するサポートが限られています。本論文では、アーティストがサブシーンから構成することで高品質な画像を生成する手段として、Composite Diffusionを紹介します。アーティストは、柔軟な自由形式のセグメントレイアウトを通じて、これらのサブシーンの配置を指定できます。各サブシーンの内容は、主に自然言語テキストで記述し、さらに参照画像や、線画、落書き、人間のポーズ、キャニーエッジなどの制御入力を利用して記述することもできます。
私たちは、Composite Diffusionのための包括的でモジュール化された方法を提供し、サブシーンを生成、構成、調和させるための代替手段を可能にします。さらに、合成画像の有効性を、画像品質とアーティストの意図の達成の両面で評価したいと考えています。既存の画像品質指標は、画像合成の全体的な評価に欠けていると主張します。これに対処するために、合成生成に特に関連する新しい品質基準を提案します。
私たちのアプローチは、直感的なアート作成方法を提供すると信じています。広範なユーザー調査、定量的および定性的分析を通じて、画像生成に対する空間的、意味的、創造的な制御をより大きく達成する方法を示します。さらに、私たちの方法は、ベースの拡散モデルのアーキテクチャを再トレーニングまたは変更する必要がなく、ファインチューニングされたモデルとプラグアンドプレイ方式で動作できます。
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.