Compose et Conquiers : Synthèse d'Image 3D Consciente de la Profondeur Basée sur la Diffusion
Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
January 17, 2024
Auteurs: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI
Résumé
Pour pallier les limitations du texte comme source de représentation précise de la disposition dans les modèles de diffusion conditionnés par le texte, de nombreux travaux intègrent des signaux supplémentaires pour conditionner certains attributs au sein d'une image générée. Bien que ces approches soient efficaces, elles ne prennent pas en compte la localisation spécifique de ces attributs étendue dans le plan tridimensionnel. Dans ce contexte, nous présentons un modèle de diffusion conditionné qui intègre un contrôle sur le placement tridimensionnel des objets avec des représentations désentrelacées de la sémantique stylistique globale provenant de plusieurs images exemplaires. Plus précisément, nous introduisons d'abord un entraînement de désentrelacement de la profondeur pour exploiter la profondeur relative des objets comme estimateur, permettant au modèle d'identifier les positions absolues d'objets non vus grâce à l'utilisation de triplets d'images synthétiques. Nous introduisons également le guidage doux, une méthode pour imposer une sémantique globale sur des régions ciblées sans utiliser d'indices de localisation supplémentaires. Notre cadre intégré, Compose and Conquer (CnC), unifie ces techniques pour localiser plusieurs conditions de manière désentrelacée. Nous démontrons que notre approche permet la perception d'objets à différentes profondeurs tout en offrant un cadre polyvalent pour composer des objets localisés avec différentes sémantiques globales. Code : https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout
representation in text-conditional diffusion models, many works incorporate
additional signals to condition certain attributes within a generated image.
Although successful, previous works do not account for the specific
localization of said attributes extended into the three dimensional plane. In
this context, we present a conditional diffusion model that integrates control
over three-dimensional object placement with disentangled representations of
global stylistic semantics from multiple exemplar images. Specifically, we
first introduce depth disentanglement training to leverage the
relative depth of objects as an estimator, allowing the model to identify the
absolute positions of unseen objects through the use of synthetic image
triplets. We also introduce soft guidance, a method for imposing
global semantics onto targeted regions without the use of any additional
localization cues. Our integrated framework, Compose and Conquer
(CnC), unifies these techniques to localize multiple conditions in a
disentangled manner. We demonstrate that our approach allows perception of
objects at varying depths while offering a versatile framework for composing
localized objects with different global semantics. Code:
https://github.com/tomtom1103/compose-and-conquer/