Composeer en Overwin: Diffusie-gebaseerde 3D Dieptebewuste Samenstelbare Beeldsynthese
Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
January 17, 2024
Auteurs: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI
Samenvatting
Het aanpakken van de beperkingen van tekst als bron voor nauwkeurige lay-outrepresentatie in tekst-conditionele diffusiemodellen, integreren veel werken aanvullende signalen om bepaalde attributen binnen een gegenereerde afbeelding te conditioneren. Hoewel succesvol, houden eerdere werken geen rekening met de specifieke lokalisatie van deze attributen uitgebreid naar het driedimensionale vlak. In deze context presenteren we een conditioneel diffusiemodel dat controle over driedimensionale objectplaatsing integreert met ontwarde representaties van globale stilistische semantiek uit meerdere voorbeeldafbeeldingen. Specifiek introduceren we eerst diepteontwarringstraining om de relatieve diepte van objecten te benutten als schatter, waardoor het model de absolute posities van onbekende objecten kan identificeren door het gebruik van synthetische afbeeldingstripletten. We introduceren ook zachte begeleiding, een methode voor het opleggen van globale semantiek aan gerichte regio's zonder het gebruik van aanvullende lokalisatieaanwijzingen. Ons geïntegreerde framework, Compose and Conquer (CnC), verenigt deze technieken om meerdere condities op een ontwarde manier te lokaliseren. We tonen aan dat onze aanpak de waarneming van objecten op verschillende diepten mogelijk maakt, terwijl het een veelzijdig framework biedt voor het samenstellen van gelokaliseerde objecten met verschillende globale semantiek. Code: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout
representation in text-conditional diffusion models, many works incorporate
additional signals to condition certain attributes within a generated image.
Although successful, previous works do not account for the specific
localization of said attributes extended into the three dimensional plane. In
this context, we present a conditional diffusion model that integrates control
over three-dimensional object placement with disentangled representations of
global stylistic semantics from multiple exemplar images. Specifically, we
first introduce depth disentanglement training to leverage the
relative depth of objects as an estimator, allowing the model to identify the
absolute positions of unseen objects through the use of synthetic image
triplets. We also introduce soft guidance, a method for imposing
global semantics onto targeted regions without the use of any additional
localization cues. Our integrated framework, Compose and Conquer
(CnC), unifies these techniques to localize multiple conditions in a
disentangled manner. We demonstrate that our approach allows perception of
objects at varying depths while offering a versatile framework for composing
localized objects with different global semantics. Code:
https://github.com/tomtom1103/compose-and-conquer/