SeeThrough3D: Verdeckungsbewusste 3D-Steuerung in der Text-zu-Bild-Generierung

Zusammenfassung

Wir identifizieren die Okklusionsmodellierung als einen grundlegenden, aber vernachlässigten Aspekt für die 3D-Layout-konditionierte Generierung. Sie ist entscheidend für die Synthese teilweise verdeckter Objekte mit tiefenkonsistenter Geometrie und Skalierung. Während bestehende Methoden realistische Szenen generieren können, die den Eingabe-Layouts folgen, scheitern sie oft an der präzisen Modellierung von Objektüberlagerungen. Wir stellen SeeThrough3D vor, ein Modell für die 3D-Layout-konditionierte Generierung, das Okklusionen explizit modelliert. Wir führen eine okklusionsbewusste 3D-Szenendarstellung (OSCR) ein, bei der Objekte als transluzente 3D-Boxen in einer virtuellen Umgebung platziert und aus der gewünschten Kameraperspektive gerendert werden. Die Transparenz kodiert verborgene Objektbereiche und ermöglicht es dem Modell, Okklusionen zu berücksichtigen, während die gerenderte Perspektive eine explizite Kamerasteuerung während der Generierung bietet. Wir konditionieren ein vortrainiertes, flussbasiertes Text-zu-Bild-Generierungsmodell, indem wir einen Satz visueller Token einführen, die aus unserer gerenderten 3D-Darstellung abgeleitet werden. Darüber hinaus wenden wir maskierte Self-Attention an, um jede Objekt-Bounding-Box präzise mit ihrer entsprechenden Textbeschreibung zu verknüpfen und so eine genaue Generierung mehrerer Objekte ohne Vermischung von Objektattributen zu ermöglichen. Für das Training des Modells erstellen wir einen synthetischen Datensatz mit vielfältigen Multi-Objekt-Szenen und starken Objektüberlagerungen. SeeThrough3D generalisiert effektiv auf unbekannte Objektkategorien und ermöglicht eine präzise 3D-Layout-Steuerung mit realistischen Okklusionen und konsistenter Kamerakontrolle.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: Verdeckungsbewusste 3D-Steuerung in der Text-zu-Bild-Generierung

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Zusammenfassung

Support