Diffusion composite | l'ensemble >= Σles parties
Composite Diffusion | whole >= Σparts
July 25, 2023
Auteurs: Vikram Jamwal, Ramaneswaran S
cs.AI
Résumé
Pour un artiste ou un graphiste, la disposition spatiale d'une scène constitue un choix de conception crucial. Cependant, les modèles de diffusion texte-image existants offrent un soutien limité pour l'intégration d'informations spatiales. Cet article présente la Diffusion Composite comme un moyen pour les artistes de générer des images de haute qualité en composant à partir de sous-scènes. Les artistes peuvent spécifier l'agencement de ces sous-scènes grâce à une disposition segmentée libre et flexible. Ils peuvent décrire le contenu de chaque sous-scène principalement en utilisant du texte naturel, et en complément, en recourant à des images de référence ou à des entrées de contrôle telles que des dessins au trait, des gribouillis, des poses humaines, des contours de canny, et plus encore.
Nous proposons une méthode complète et modulaire pour la Diffusion Composite, permettant des alternatives pour générer, composer et harmoniser les sous-scènes. De plus, nous souhaitons évaluer l'image composite en termes d'efficacité, tant sur la qualité de l'image que sur la réalisation de l'intention artistique. Nous soutenons que les métriques de qualité d'image existantes manquent d'une évaluation holistique des images composites. Pour remédier à cela, nous proposons de nouveaux critères de qualité particulièrement pertinents pour la génération composite.
Nous croyons que notre approche offre une méthode intuitive de création artistique. Grâce à des enquêtes utilisateurs approfondies, ainsi qu'à des analyses quantitatives et qualitatives, nous montrons comment elle permet un meilleur contrôle spatial, sémantique et créatif sur la génération d'images. De plus, nos méthodes ne nécessitent pas de réentraîner ou de modifier l'architecture des modèles de diffusion de base et peuvent fonctionner de manière plug-and-play avec les modèles affinés.
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.