ChatPaper.aiChatPaper

複合拡散 | 全体 >= 部分の総和

Composite Diffusion | whole >= Σparts

July 25, 2023
著者: Vikram Jamwal, Ramaneswaran S
cs.AI

要旨

アーティストやグラフィックデザイナーにとって、シーンの空間レイアウトは重要なデザイン選択です。しかし、既存のテキストから画像への拡散モデルは、空間情報の組み込みに対するサポートが限られています。本論文では、アーティストがサブシーンから構成することで高品質な画像を生成する手段として、Composite Diffusionを紹介します。アーティストは、柔軟な自由形式のセグメントレイアウトを通じて、これらのサブシーンの配置を指定できます。各サブシーンの内容は、主に自然言語テキストで記述し、さらに参照画像や、線画、落書き、人間のポーズ、キャニーエッジなどの制御入力を利用して記述することもできます。 私たちは、Composite Diffusionのための包括的でモジュール化された方法を提供し、サブシーンを生成、構成、調和させるための代替手段を可能にします。さらに、合成画像の有効性を、画像品質とアーティストの意図の達成の両面で評価したいと考えています。既存の画像品質指標は、画像合成の全体的な評価に欠けていると主張します。これに対処するために、合成生成に特に関連する新しい品質基準を提案します。 私たちのアプローチは、直感的なアート作成方法を提供すると信じています。広範なユーザー調査、定量的および定性的分析を通じて、画像生成に対する空間的、意味的、創造的な制御をより大きく達成する方法を示します。さらに、私たちの方法は、ベースの拡散モデルのアーキテクチャを再トレーニングまたは変更する必要がなく、ファインチューニングされたモデルとプラグアンドプレイ方式で動作できます。
English
For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces Composite Diffusion as a means for artists to generate high-quality images by composing from the sub-scenes. The artists can specify the arrangement of these sub-scenes through a flexible free-form segment layout. They can describe the content of each sub-scene primarily using natural text and additionally by utilizing reference images or control inputs such as line art, scribbles, human pose, canny edges, and more. We provide a comprehensive and modular method for Composite Diffusion that enables alternative ways of generating, composing, and harmonizing sub-scenes. Further, we wish to evaluate the composite image for effectiveness in both image quality and achieving the artist's intent. We argue that existing image quality metrics lack a holistic evaluation of image composites. To address this, we propose novel quality criteria especially relevant to composite generation. We believe that our approach provides an intuitive method of art creation. Through extensive user surveys, quantitative and qualitative analysis, we show how it achieves greater spatial, semantic, and creative control over image generation. In addition, our methods do not need to retrain or modify the architecture of the base diffusion models and can work in a plug-and-play manner with the fine-tuned models.
PDF90December 15, 2024