SeeThrough3D: Controllo 3D Consapevole dell'Occlusione nella Generazione di Immagini da Testo

Abstract

Identifichiamo il ragionamento sull'occlusione come un aspetto fondamentale ma trascurato per la generazione condizionata dal layout 3D. È essenziale per sintetizzare oggetti parzialmente occlusi con geometria e scala coerenti con la profondità. Sebbene i metodi esistenti possano generare scene realistiche che seguono i layout di input, spesso non riescono a modellare occlusioni inter-oggetto precise. Proponiamo SeeThrough3D, un modello per la generazione condizionata da layout 3D che modella esplicitamente le occlusioni. Introduciamo una rappresentazione di scena 3D consapevole dell'occlusione (OSCR), in cui gli oggetti sono raffigurati come box 3D traslucidi posizionati in un ambiente virtuale e renderizzati dal punto di vista della camera desiderato. La trasparenza codifica le regioni nascoste degli oggetti, consentendo al modello di ragionare sulle occlusioni, mentre il punto di vista renderizzato fornisce un controllo esplicito della camera durante la generazione. Condizioniamo un modello preaddestrato di generazione di immagini text-to-image basato su flow introducendo un insieme di token visivi derivati dalla nostra rappresentazione 3D renderizzata. Inoltre, applichiamo l'auto-attenzione mascherata per associare accuratamente ogni bounding box dell'oggetto alla sua corrispondente descrizione testuale, consentendo la generazione precisa di oggetti multipli senza mescolanza di attributi. Per addestrare il modello, costruiamo un dataset sintetico con scene multi-oggetto diversificate con forti occlusioni inter-oggetto. SeeThrough3D generalizza efficacemente a categorie di oggetti non viste e consente un controllo preciso del layout 3D con occlusioni realistiche e un controllo della camera coerente.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: Controllo 3D Consapevole dell'Occlusione nella Generazione di Immagini da Testo

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Abstract

Support