ChatPaper.aiChatPaper

Composite Diffusion | das Ganze >= Σ der Teile

Composite Diffusion | whole >= Σparts

July 25, 2023
Autoren: Vikram Jamwal, Ramaneswaran S
cs.AI

Zusammenfassung

Für Künstler oder Grafikdesigner ist die räumliche Anordnung einer Szene eine entscheidende Gestaltungsentscheidung. Bisher bieten bestehende Text-zu-Bild-Diffusionsmodelle jedoch nur begrenzte Unterstützung für die Einbindung räumlicher Informationen. In diesem Artikel stellen wir Composite Diffusion als Methode vor, mit der Künstler hochwertige Bilder durch die Komposition von Teil-Szenen erzeugen können. Die Künstler können die Anordnung dieser Teil-Szenen über ein flexibles, freies Segmentlayout festlegen. Sie können den Inhalt jeder Teil-Szene hauptsächlich durch natürlichen Text beschreiben und zusätzlich Referenzbilder oder Steuerungseingaben wie Strichzeichnungen, Kritzeleien, menschliche Posen, Canny-Kanten und mehr nutzen. Wir bieten eine umfassende und modulare Methode für Composite Diffusion, die alternative Wege zur Erzeugung, Komposition und Harmonisierung von Teil-Szenen ermöglicht. Darüber hinaus möchten wir das zusammengesetzte Bild sowohl hinsichtlich der Bildqualität als auch der Erfüllung der künstlerischen Absicht bewerten. Wir argumentieren, dass bestehende Bildqualitätsmetriken eine ganzheitliche Bewertung von Bildkompositionen vermissen lassen. Um dies zu beheben, schlagen wir neue Qualitätskriterien vor, die besonders für die Kompositionsgenerierung relevant sind. Wir glauben, dass unser Ansatz eine intuitive Methode zur Kunstschaffung bietet. Durch umfangreiche Benutzerumfragen sowie quantitative und qualitative Analysen zeigen wir, wie er eine größere räumliche, semantische und kreative Kontrolle über die Bildgenerierung erreicht. Darüber hinaus müssen unsere Methoden die Architektur der Basisdiffusionsmodelle nicht neu trainieren oder modifizieren und können in Plug-and-Play-Weise mit feinabgestimmten Modellen arbeiten.
English
For an artist or a graphic designer, the spatial layout of a scene is a critical design choice. However, existing text-to-image diffusion models provide limited support for incorporating spatial information. This paper introduces Composite Diffusion as a means for artists to generate high-quality images by composing from the sub-scenes. The artists can specify the arrangement of these sub-scenes through a flexible free-form segment layout. They can describe the content of each sub-scene primarily using natural text and additionally by utilizing reference images or control inputs such as line art, scribbles, human pose, canny edges, and more. We provide a comprehensive and modular method for Composite Diffusion that enables alternative ways of generating, composing, and harmonizing sub-scenes. Further, we wish to evaluate the composite image for effectiveness in both image quality and achieving the artist's intent. We argue that existing image quality metrics lack a holistic evaluation of image composites. To address this, we propose novel quality criteria especially relevant to composite generation. We believe that our approach provides an intuitive method of art creation. Through extensive user surveys, quantitative and qualitative analysis, we show how it achieves greater spatial, semantic, and creative control over image generation. In addition, our methods do not need to retrain or modify the architecture of the base diffusion models and can work in a plug-and-play manner with the fine-tuned models.
PDF90December 15, 2024