Komponieren und Erobern: Diffusionsbasierte, 3D-tiefenbewusste, zusammensetzbare Bildsynthese
Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
January 17, 2024
Autoren: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI
Zusammenfassung
Um die Grenzen von Text als Quelle für eine genaue Layoutdarstellung in textbedingten Diffusionsmodellen zu überwinden, integrieren viele Arbeiten zusätzliche Signale, um bestimmte Attribute innerhalb eines generierten Bildes zu steuern. Obwohl erfolgreich, berücksichtigen frühere Arbeiten nicht die spezifische Lokalisierung dieser Attribute, die in die dreidimensionale Ebene erweitert wird. In diesem Zusammenhang präsentieren wir ein bedingtes Diffusionsmodell, das die Kontrolle über die dreidimensionale Objektplatzierung mit entkoppelten Darstellungen globaler stilistischer Semantik aus mehreren Beispielbildern vereint. Konkret führen wir zunächst ein Training zur Tiefenentkopplung ein, um die relative Tiefe von Objekten als Schätzer zu nutzen, wodurch das Modell die absoluten Positionen unbekannter Objekte durch die Verwendung synthetischer Bildtripletts identifizieren kann. Wir stellen auch die Methode der weichen Steuerung vor, die globale Semantik auf gezielte Regionen überträgt, ohne zusätzliche Lokalisierungshinweise zu verwenden. Unser integriertes Framework, Compose and Conquer (CnC), vereint diese Techniken, um mehrere Bedingungen auf entkoppelte Weise zu lokalisieren. Wir zeigen, dass unser Ansatz die Wahrnehmung von Objekten in unterschiedlichen Tiefen ermöglicht und gleichzeitig ein vielseitiges Framework für die Komposition lokalisierter Objekte mit verschiedenen globalen Semantiken bietet. Code: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout
representation in text-conditional diffusion models, many works incorporate
additional signals to condition certain attributes within a generated image.
Although successful, previous works do not account for the specific
localization of said attributes extended into the three dimensional plane. In
this context, we present a conditional diffusion model that integrates control
over three-dimensional object placement with disentangled representations of
global stylistic semantics from multiple exemplar images. Specifically, we
first introduce depth disentanglement training to leverage the
relative depth of objects as an estimator, allowing the model to identify the
absolute positions of unseen objects through the use of synthetic image
triplets. We also introduce soft guidance, a method for imposing
global semantics onto targeted regions without the use of any additional
localization cues. Our integrated framework, Compose and Conquer
(CnC), unifies these techniques to localize multiple conditions in a
disentangled manner. We demonstrate that our approach allows perception of
objects at varying depths while offering a versatile framework for composing
localized objects with different global semantics. Code:
https://github.com/tomtom1103/compose-and-conquer/