ChatPaper.aiChatPaper

Componer y Conquistar: Síntesis de Imágenes Compuestas 3D con Conciencia de Profundidad Basada en Difusión

Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis

January 17, 2024
Autores: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI

Resumen

Para abordar las limitaciones del texto como fuente de representación precisa del diseño en modelos de difusión condicionados por texto, muchas investigaciones incorporan señales adicionales para condicionar ciertos atributos dentro de una imagen generada. Aunque exitosos, trabajos previos no consideran la localización específica de dichos atributos extendida al plano tridimensional. En este contexto, presentamos un modelo de difusión condicional que integra control sobre la colocación tridimensional de objetos con representaciones desentrelazadas de semántica estilística global a partir de múltiples imágenes de ejemplo. Específicamente, primero introducimos un entrenamiento de desentrelazamiento de profundidad para aprovechar la profundidad relativa de los objetos como estimador, permitiendo que el modelo identifique las posiciones absolutas de objetos no vistos mediante el uso de trillizos de imágenes sintéticas. También presentamos la guía suave, un método para imponer semántica global en regiones específicas sin el uso de señales de localización adicionales. Nuestro marco integrado, Compose and Conquer (CnC), unifica estas técnicas para localizar múltiples condiciones de manera desentrelazada. Demostramos que nuestro enfoque permite la percepción de objetos a diferentes profundidades, ofreciendo un marco versátil para componer objetos localizados con diferentes semánticas globales. Código: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout representation in text-conditional diffusion models, many works incorporate additional signals to condition certain attributes within a generated image. Although successful, previous works do not account for the specific localization of said attributes extended into the three dimensional plane. In this context, we present a conditional diffusion model that integrates control over three-dimensional object placement with disentangled representations of global stylistic semantics from multiple exemplar images. Specifically, we first introduce depth disentanglement training to leverage the relative depth of objects as an estimator, allowing the model to identify the absolute positions of unseen objects through the use of synthetic image triplets. We also introduce soft guidance, a method for imposing global semantics onto targeted regions without the use of any additional localization cues. Our integrated framework, Compose and Conquer (CnC), unifies these techniques to localize multiple conditions in a disentangled manner. We demonstrate that our approach allows perception of objects at varying depths while offering a versatile framework for composing localized objects with different global semantics. Code: https://github.com/tomtom1103/compose-and-conquer/
PDF102December 15, 2024