Difusão Composta | o todo >= Σpartes

Resumo

Para um artista ou designer gráfico, o layout espacial de uma cena é uma escolha de design crucial. No entanto, os modelos de difusão de texto para imagem existentes oferecem suporte limitado para a incorporação de informações espaciais. Este artigo introduz a Difusão Composta como um meio para os artistas gerarem imagens de alta qualidade compondo a partir de subcenas. Os artistas podem especificar o arranjo dessas subcenas por meio de um layout de segmentação flexível e de forma livre. Eles podem descrever o conteúdo de cada subcena principalmente usando texto natural e adicionalmente utilizando imagens de referência ou entradas de controle, como arte linear, rabiscos, pose humana, bordas canny e mais. Fornecemos um método abrangente e modular para Difusão Composta que permite maneiras alternativas de gerar, compor e harmonizar subcenas. Além disso, desejamos avaliar a imagem composta quanto à eficácia tanto na qualidade da imagem quanto na realização da intenção do artista. Argumentamos que as métricas de qualidade de imagem existentes carecem de uma avaliação holística de composições de imagens. Para resolver isso, propomos novos critérios de qualidade especialmente relevantes para a geração de composições. Acreditamos que nossa abordagem fornece um método intuitivo de criação artística. Por meio de extensas pesquisas com usuários, análises quantitativas e qualitativas, mostramos como ela alcança maior controle espacial, semântico e criativo sobre a geração de imagens. Além disso, nossos métodos não precisam retreinar ou modificar a arquitetura dos modelos de difusão base e podem funcionar de maneira plug-and-play com os modelos ajustados.

English

For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces Composite Diffusion as a means for artists to generate high-quality images by composing from the sub-scenes. The artists can specify the arrangement of these sub-scenes through a flexible free-form segment layout. They can describe the content of each sub-scene primarily using natural text and additionally by utilizing reference images or control inputs such as line art, scribbles, human pose, canny edges, and more. We provide a comprehensive and modular method for Composite Diffusion that enables alternative ways of generating, composing, and harmonizing sub-scenes. Further, we wish to evaluate the composite image for effectiveness in both image quality and achieving the artist's intent. We argue that existing image quality metrics lack a holistic evaluation of image composites. To address this, we propose novel quality criteria especially relevant to composite generation. We believe that our approach provides an intuitive method of art creation. Through extensive user surveys, quantitative and qualitative analysis, we show how it achieves greater spatial, semantic, and creative control over image generation. In addition, our methods do not need to retrain or modify the architecture of the base diffusion models and can work in a plug-and-play manner with the fine-tuned models.

Difusão Composta | o todo >= Σpartes

Composite Diffusion | whole >= Σparts

Resumo

Support