Composiet Diffusie | geheel >= Σdelen
Composite Diffusion | whole >= Σparts
July 25, 2023
Auteurs: Vikram Jamwal, Ramaneswaran S
cs.AI
Samenvatting
Voor een kunstenaar of grafisch ontwerper is de ruimtelijke opmaak van een scène een cruciaal ontwerpkeuze. Bestaande tekst-naar-beeld diffusiemodellen bieden echter beperkte ondersteuning voor het integreren van ruimtelijke informatie. Dit artikel introduceert Composite Diffusion als een manier voor kunstenaars om hoogwaardige afbeeldingen te genereren door samen te stellen vanuit subscènes. De kunstenaars kunnen de rangschikking van deze subscènes specificeren via een flexibele, vrij vormgegeven segmentopmaak. Ze kunnen de inhoud van elke subscène voornamelijk beschrijven met natuurlijke tekst en daarnaast gebruikmaken van referentiebeelden of controle-inputs zoals lijntekeningen, krabbels, menselijke houdingen, canny edges, en meer.
We bieden een uitgebreide en modulaire methode voor Composite Diffusion die alternatieve manieren mogelijk maakt om subscènes te genereren, samen te stellen en te harmoniseren. Verder willen we de samengestelde afbeelding evalueren op effectiviteit in zowel beeldkwaliteit als het bereiken van de artistieke intentie. We stellen dat bestaande beeldkwaliteitsmetrieken een holistische evaluatie van beeldcomposities missen. Om dit aan te pakken, stellen we nieuwe kwaliteitscriteria voor die vooral relevant zijn voor composietgeneratie.
We geloven dat onze aanpak een intuïtieve methode biedt voor kunstcreatie. Door uitgebreide gebruikersonderzoeken, kwantitatieve en kwalitatieve analyses, laten we zien hoe het grotere ruimtelijke, semantische en creatieve controle over beeldgeneratie bereikt. Bovendien hoeven onze methoden de architectuur van de basisdiffusiemodellen niet opnieuw te trainen of aan te passen en kunnen ze op een plug-and-play manier werken met de fijn afgestemde modellen.
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.