ChatPaper.aiChatPaper

Difusión Compuesta | el todo >= Σlas partes

Composite Diffusion | whole >= Σparts

July 25, 2023
Autores: Vikram Jamwal, Ramaneswaran S
cs.AI

Resumen

Para un artista o diseñador gráfico, la disposición espacial de una escena es una decisión de diseño crucial. Sin embargo, los modelos de difusión de texto a imagen existentes ofrecen un soporte limitado para incorporar información espacial. Este artículo presenta Composite Diffusion como un medio para que los artistas generen imágenes de alta calidad componiendo a partir de subescenas. Los artistas pueden especificar la disposición de estas subescenas mediante un diseño de segmentación flexible y de forma libre. Pueden describir el contenido de cada subescena principalmente utilizando texto natural y, adicionalmente, empleando imágenes de referencia o entradas de control como arte lineal, garabatos, poses humanas, bordes canny, entre otros. Proporcionamos un método integral y modular para Composite Diffusion que permite formas alternativas de generar, componer y armonizar subescenas. Además, deseamos evaluar la imagen compuesta en términos de su efectividad tanto en la calidad de la imagen como en el cumplimiento de la intención del artista. Argumentamos que las métricas de calidad de imagen existentes carecen de una evaluación holística de las imágenes compuestas. Para abordar esto, proponemos nuevos criterios de calidad especialmente relevantes para la generación de composiciones. Creemos que nuestro enfoque proporciona un método intuitivo de creación artística. A través de extensas encuestas a usuarios, análisis cuantitativos y cualitativos, demostramos cómo se logra un mayor control espacial, semántico y creativo sobre la generación de imágenes. Además, nuestros métodos no requieren reentrenar o modificar la arquitectura de los modelos de difusión base y pueden funcionar de manera plug-and-play con los modelos ajustados.
English
For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces Composite Diffusion as a means for artists to generate high-quality images by composing from the sub-scenes. The artists can specify the arrangement of these sub-scenes through a flexible free-form segment layout. They can describe the content of each sub-scene primarily using natural text and additionally by utilizing reference images or control inputs such as line art, scribbles, human pose, canny edges, and more. We provide a comprehensive and modular method for Composite Diffusion that enables alternative ways of generating, composing, and harmonizing sub-scenes. Further, we wish to evaluate the composite image for effectiveness in both image quality and achieving the artist's intent. We argue that existing image quality metrics lack a holistic evaluation of image composites. To address this, we propose novel quality criteria especially relevant to composite generation. We believe that our approach provides an intuitive method of art creation. Through extensive user surveys, quantitative and qualitative analysis, we show how it achieves greater spatial, semantic, and creative control over image generation. In addition, our methods do not need to retrain or modify the architecture of the base diffusion models and can work in a plug-and-play manner with the fine-tuned models.
PDF90December 15, 2024