SeeThrough3D: Controle 3D Consciente de Oclusão na Geração de Imagens a Partir de Texto

Resumo

Identificamos o raciocínio sobre oclusão como um aspeto fundamental, mas negligenciado, para a geração condicionada por layouts 3D. É essencial para sintetizar objetos parcialmente ocluídos com geometria e escala consistentes em profundidade. Embora os métodos existentes possam gerar cenas realistas que seguem os layouts de entrada, muitas vezes falham em modelar oclusões precisas entre objetos. Propomos o SeeThrough3D, um modelo para geração condicionada por layout 3D que modela explicitamente as oclusões. Introduzimos uma representação de cena 3D consciente da oclusão (OSCR), onde os objetos são representados como caixas 3D translúcidas posicionadas dentro de um ambiente virtual e renderizadas a partir do ponto de vista da câmara desejado. A transparência codifica as regiões ocultas dos objetos, permitindo que o modelo raciocine sobre as oclusões, enquanto o ponto de vista renderizado fornece controlo explícito da câmara durante a geração. Condicionamos um modelo pré-treinado de geração de imagem texto-para-imagem baseado em fluxo, introduzindo um conjunto de *tokens* visuais derivados da nossa representação 3D renderizada. Além disso, aplicamos autoatenção mascarada para ligar com precisão cada *bounding box* de objeto à sua descrição textual correspondente, permitindo a geração precisa de múltiplos objetos sem mistura de atributos. Para treinar o modelo, construímos um conjunto de dados sintético com diversas cenas multiobjeto com fortes oclusões entre objetos. O SeeThrough3D generaliza eficazmente para categorias de objetos não vistas e permite um controlo preciso do layout 3D com oclusões realistas e controlo consistente da câmara.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: Controle 3D Consciente de Oclusão na Geração de Imagens a Partir de Texto

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Resumo

Support