SeeThrough3D : Contrôle 3D prenant en compte les occlusions dans la génération d'images à partir de texte

Résumé

Nous identifions le raisonnement sur les occlusions comme un aspect fondamental mais négligé pour la génération conditionnée par la mise en page 3D. Il est essentiel pour synthétiser des objets partiellement occultés avec une géométrie et une échelle cohérentes en profondeur. Bien que les méthodes existantes puissent générer des scènes réalistes respectant les mises en page d'entrée, elles échouent souvent à modéliser les occlusions inter-objets précises. Nous proposons SeeThrough3D, un modèle de génération conditionnée par mise en page 3D qui modélise explicitement les occlusions. Nous introduisons une représentation de scène 3D sensible aux occlusions (OSCR), où les objets sont représentés comme des boîtes 3D translucides placées dans un environnement virtuel et rendues depuis le point de vue caméra souhaité. La transparence encode les régions cachées des objets, permettant au modèle de raisonner sur les occlusions, tandis que le point de vue rendu fournit un contrôle explicite de la caméra pendant la génération. Nous conditionnons un modèle de génération d'images texte-à-image préentraîné basé sur les flux en introduisant un ensemble de tokens visuels dérivés de notre représentation 3D rendue. De plus, nous appliquons une auto-attention masquée pour lier précisément chaque boîte englobante d'objet à sa description textuelle correspondante, permettant une génération précise de multiples objets sans mélange d'attributs. Pour entraîner le modèle, nous construisons un jeu de données synthétique avec des scènes multi-objets diverses présentant de fortes occlusions inter-objets. SeeThrough3D généralise efficacement à des catégories d'objets non vues et permet un contrôle précis de la mise en page 3D avec des occlusions réalistes et un contrôle cohérent de la caméra.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D : Contrôle 3D prenant en compte les occlusions dans la génération d'images à partir de texte

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Résumé

Support