SeeThrough3D: Control 3D Consciente de Oclusiones en la Generación de Imágenes a partir de Texto

Resumen

Identificamos el razonamiento sobre oclusiones como un aspecto fundamental pero subestimado en la generación condicionada por disposición 3D. Es esencial para sintetizar objetos parcialmente ocluidos con geometría y escala consistentes en profundidad. Si bien los métodos existentes pueden generar escenas realistas que siguen disposiciones de entrada, a menudo fallan al modelar oclusiones precisas entre objetos. Proponemos SeeThrough3D, un modelo para generación condicionada por disposición 3D que modela explícitamente las oclusiones. Introducimos una representación de escena 3D consciente de oclusiones (OSCR), donde los objetos se representan como cajas 3D translúcidas colocadas en un entorno virtual y renderizadas desde el punto de vista de cámara deseado. La transparencia codifica las regiones ocultas de los objetos, permitiendo al modelo razonar sobre las oclusiones, mientras que la vista renderizada proporciona control explícito de la cámara durante la generación. Condicionamos un modelo preentrenado de generación de imágenes basado en flujo y texto mediante la introducción de un conjunto de tokens visuales derivados de nuestra representación 3D renderizada. Además, aplicamos autoatención enmascarada para vincular con precisión cada caja delimitadora de objeto a su descripción textual correspondiente, permitiendo la generación precisa de múltiples objetos sin mezcla de atributos. Para entrenar el modelo, construimos un conjunto de datos sintético con diversas escenas multiobjeto que presentan fuertes oclusiones entre objetos. SeeThrough3D generaliza eficazmente a categorías de objetos no vistas y permite un control preciso de la disposición 3D con oclusiones realistas y control de cámara consistente.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: Control 3D Consciente de Oclusiones en la Generación de Imágenes a partir de Texto

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Resumen

Support