Diffusione Composita | il tutto >= Σdelle parti
Composite Diffusion | whole >= Σparts
July 25, 2023
Autori: Vikram Jamwal, Ramaneswaran S
cs.AI
Abstract
Per un artista o un graphic designer, il layout spaziale di una scena è una scelta progettuale cruciale. Tuttavia, i modelli di diffusione testo-immagine esistenti offrono un supporto limitato per l'incorporazione di informazioni spaziali. Questo articolo introduce la Diffusione Composita come mezzo per gli artisti di generare immagini di alta qualità componendo da sotto-scene. Gli artisti possono specificare la disposizione di queste sotto-scene attraverso un layout a segmenti libero e flessibile. Possono descrivere il contenuto di ciascuna sotto-scena principalmente utilizzando testo naturale e, in aggiunta, sfruttando immagini di riferimento o input di controllo come linee, schizzi, pose umane, bordi Canny e altro.
Forniamo un metodo completo e modulare per la Diffusione Composita che consente modalità alternative di generazione, composizione e armonizzazione delle sotto-scene. Inoltre, desideriamo valutare l'immagine composita per l'efficacia sia nella qualità dell'immagine che nel raggiungimento dell'intento dell'artista. Sosteniamo che le metriche esistenti per la qualità dell'immagine mancano di una valutazione olistica delle immagini composite. Per affrontare questo problema, proponiamo nuovi criteri di qualità particolarmente rilevanti per la generazione composita.
Crediamo che il nostro approccio fornisca un metodo intuitivo di creazione artistica. Attraverso ampi sondaggi utente, analisi quantitative e qualitative, dimostriamo come esso raggiunga un maggiore controllo spaziale, semantico e creativo sulla generazione delle immagini. Inoltre, i nostri metodi non necessitano di riaddestrare o modificare l'architettura dei modelli di diffusione di base e possono funzionare in modalità plug-and-play con i modelli fine-tunati.
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.