Componi e Conquista: Sintesi di Immagini Composizionali 3D con Consapevolezza della Profondità Basata su Diffusione
Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis
January 17, 2024
Autori: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI
Abstract
Affrontando i limiti del testo come fonte di rappresentazione accurata del layout nei modelli di diffusione condizionati al testo, molti lavori incorporano segnali aggiuntivi per condizionare determinati attributi all'interno di un'immagine generata. Sebbene di successo, i lavori precedenti non tengono conto della specifica localizzazione di detti attributi estesa nel piano tridimensionale. In questo contesto, presentiamo un modello di diffusione condizionata che integra il controllo sul posizionamento tridimensionale degli oggetti con rappresentazioni disaccoppiate della semantica stilistica globale da più immagini esemplari. Nello specifico, introduciamo prima un addestramento di disaccoppiamento della profondità per sfruttare la profondità relativa degli oggetti come stimatore, consentendo al modello di identificare le posizioni assolute di oggetti non visti attraverso l'uso di triplette di immagini sintetiche. Introduciamo anche la guida soft, un metodo per imporre la semantica globale su regioni target senza l'uso di ulteriori indizi di localizzazione. Il nostro framework integrato, Compose and Conquer (CnC), unifica queste tecniche per localizzare più condizioni in modo disaccoppiato. Dimostriamo che il nostro approccio consente la percezione di oggetti a diverse profondità, offrendo un framework versatile per comporre oggetti localizzati con diverse semantiche globali. Codice: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout
representation in text-conditional diffusion models, many works incorporate
additional signals to condition certain attributes within a generated image.
Although successful, previous works do not account for the specific
localization of said attributes extended into the three dimensional plane. In
this context, we present a conditional diffusion model that integrates control
over three-dimensional object placement with disentangled representations of
global stylistic semantics from multiple exemplar images. Specifically, we
first introduce depth disentanglement training to leverage the
relative depth of objects as an estimator, allowing the model to identify the
absolute positions of unseen objects through the use of synthetic image
triplets. We also introduce soft guidance, a method for imposing
global semantics onto targeted regions without the use of any additional
localization cues. Our integrated framework, Compose and Conquer
(CnC), unifies these techniques to localize multiple conditions in a
disentangled manner. We demonstrate that our approach allows perception of
objects at varying depths while offering a versatile framework for composing
localized objects with different global semantics. Code:
https://github.com/tomtom1103/compose-and-conquer/