SeeThrough3D: 3D-controle met occlusiebewustzijn in tekst-naar-beeldgeneratie

Samenvatting

Wij identificeren occlusieredenering als een fundamenteel maar over het hoofd gezien aspect voor 3D-lay-out-geconditioneerde generatie. Het is essentieel voor het synthetiseren van gedeeltelijk verborgen objecten met diepteconsistente geometrie en schaal. Hoewel bestaande methodes realistische scènes kunnen genereren die de invoerlay-outs volgen, slagen zij er vaak niet in precieze inter-object occlusies te modelleren. Wij stellen SeeThrough3D voor, een model voor 3D-lay-out-geconditioneerde generatie dat occlusies expliciet modelleert. Wij introduceren een occlusiebewuste 3D-scènevoorstelling (OSCR), waarbij objecten worden afgebeeld als doorschijnende 3D-boxen die in een virtuele omgeving zijn geplaatst en worden gerenderd vanuit een gewenst camerastandpunt. De transparantie codeert verborgen objectregio's, waardoor het model over occlusies kan redeneren, terwijl het gerenderde standpunt expliciete cameracontrole biedt tijdens de generatie. Wij conditioneren een voorgetraind op flow gebaseerd tekst-naar-beeld generatiemodel door een reeks visuele tokens geïntroduceerd die zijn afgeleid van onze gerenderde 3D-voorstelling. Verder passen wij gemaskeerde zelf-attentie toe om elk objectbegrenzingsvlak nauwkeurig te binden aan de bijbehorende tekstuele beschrijving, wat nauwkeurige generatie van meerdere objecten zonder menging van objectattributen mogelijk maakt. Om het model te trainen, construeren wij een synthetische dataset met diverse multi-object scènes met sterke inter-object occlusies. SeeThrough3D generaliseert effectief naar onzichtbare objectcategorieën en maakt precieze 3D-lay-outcontrole mogelijk met realistische occlusies en consistente cameracontrole.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: 3D-controle met occlusiebewustzijn in tekst-naar-beeldgeneratie

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Samenvatting

Support