Композитная диффузия | целое >= Σчастей
Composite Diffusion | whole >= Σparts
July 25, 2023
Авторы: Vikram Jamwal, Ramaneswaran S
cs.AI
Аннотация
Для художника или графического дизайнера пространственная компоновка сцены является важным элементом дизайна. Однако существующие модели диффузии текста в изображение предоставляют ограниченные возможности для включения пространственной информации. В данной статье представлен метод Composite Diffusion, который позволяет художникам создавать высококачественные изображения, комбинируя под-сцены. Художники могут задавать расположение этих под-сцен с помощью гибкого свободного сегментного макета. Они могут описывать содержание каждой под-сцены преимущественно с использованием естественного текста, а также дополнительно применять эталонные изображения или управляющие входные данные, такие как линейные рисунки, наброски, позы человека, контуры и многое другое.
Мы предлагаем комплексный и модульный метод Composite Diffusion, который позволяет альтернативные способы генерации, компоновки и гармонизации под-сцен. Кроме того, мы стремимся оценить композитное изображение с точки зрения как качества изображения, так и достижения замысла художника. Мы утверждаем, что существующие метрики качества изображения не обеспечивают целостной оценки композитов. Для решения этой проблемы мы предлагаем новые критерии качества, особенно актуальные для генерации композитов.
Мы считаем, что наш подход предоставляет интуитивный метод создания искусства. С помощью обширных пользовательских опросов, количественного и качественного анализа мы показываем, как он обеспечивает больший контроль над пространственной, семантической и творческой составляющими генерации изображений. Кроме того, наши методы не требуют переобучения или изменения архитектуры базовых моделей диффузии и могут работать в режиме plug-and-play с доработанными моделями.
English
For an artist or a graphic designer, the spatial layout of a scene is a
critical design choice. However, existing text-to-image diffusion models
provide limited support for incorporating spatial information. This paper
introduces Composite Diffusion as a means for artists to generate high-quality
images by composing from the sub-scenes. The artists can specify the
arrangement of these sub-scenes through a flexible free-form segment layout.
They can describe the content of each sub-scene primarily using natural text
and additionally by utilizing reference images or control inputs such as line
art, scribbles, human pose, canny edges, and more.
We provide a comprehensive and modular method for Composite Diffusion that
enables alternative ways of generating, composing, and harmonizing sub-scenes.
Further, we wish to evaluate the composite image for effectiveness in both
image quality and achieving the artist's intent. We argue that existing image
quality metrics lack a holistic evaluation of image composites. To address
this, we propose novel quality criteria especially relevant to composite
generation.
We believe that our approach provides an intuitive method of art creation.
Through extensive user surveys, quantitative and qualitative analysis, we show
how it achieves greater spatial, semantic, and creative control over image
generation. In addition, our methods do not need to retrain or modify the
architecture of the base diffusion models and can work in a plug-and-play
manner with the fine-tuned models.