ChatPaper.aiChatPaper

Compor e Conquistar: Síntese de Imagem Componível 3D com Consciência de Profundidade Baseada em Difusão

Compose and Conquer: Diffusion-Based 3D Depth Aware Composable Image Synthesis

January 17, 2024
Autores: Jonghyun Lee, Hansam Cho, Youngjoon Yoo, Seoung Bum Kim, Yonghyun Jeong
cs.AI

Resumo

Abordando as limitações do texto como fonte de representação precisa de layout em modelos de difusão condicionados por texto, muitos trabalhos incorporam sinais adicionais para condicionar certos atributos dentro de uma imagem gerada. Embora bem-sucedidos, trabalhos anteriores não consideram a localização específica desses atributos estendida para o plano tridimensional. Nesse contexto, apresentamos um modelo de difusão condicional que integra controle sobre o posicionamento tridimensional de objetos com representações desacopladas de semânticas estilísticas globais a partir de múltiplas imagens exemplares. Especificamente, primeiro introduzimos o treinamento de desacoplamento de profundidade para aproveitar a profundidade relativa dos objetos como um estimador, permitindo que o modelo identifique as posições absolutas de objetos não vistos por meio do uso de triplas de imagens sintéticas. Também introduzimos a orientação suave, um método para impor semânticas globais em regiões específicas sem o uso de pistas de localização adicionais. Nosso framework integrado, Compose and Conquer (CnC), unifica essas técnicas para localizar múltiplas condições de maneira desacoplada. Demonstramos que nossa abordagem permite a percepção de objetos em diferentes profundidades, ao mesmo tempo que oferece um framework versátil para compor objetos localizados com diferentes semânticas globais. Código: https://github.com/tomtom1103/compose-and-conquer/
English
Addressing the limitations of text as a source of accurate layout representation in text-conditional diffusion models, many works incorporate additional signals to condition certain attributes within a generated image. Although successful, previous works do not account for the specific localization of said attributes extended into the three dimensional plane. In this context, we present a conditional diffusion model that integrates control over three-dimensional object placement with disentangled representations of global stylistic semantics from multiple exemplar images. Specifically, we first introduce depth disentanglement training to leverage the relative depth of objects as an estimator, allowing the model to identify the absolute positions of unseen objects through the use of synthetic image triplets. We also introduce soft guidance, a method for imposing global semantics onto targeted regions without the use of any additional localization cues. Our integrated framework, Compose and Conquer (CnC), unifies these techniques to localize multiple conditions in a disentangled manner. We demonstrate that our approach allows perception of objects at varying depths while offering a versatile framework for composing localized objects with different global semantics. Code: https://github.com/tomtom1103/compose-and-conquer/
PDF102December 15, 2024