SeeThrough3D: Учет окклюзий при 3D-контроле в генерации изображений по текстовому описанию

Аннотация

Мы определяем учет заслонения как фундаментальный, но недооцененный аспект в задаче генерации изображений по 3D-компоновке. Он необходим для синтеза частично заслоненных объектов с геометрией и масштабом, согласованными по глубине. Хотя существующие методы могут генерировать реалистичные сцены, соответствующие входным компоновкам, они часто не способны точно моделировать взаимные заслонения объектов. Мы предлагаем SeeThrough3D — модель для генерации по 3D-компоновке, которая явно моделирует заслонения. Мы вводим occlusion-aware 3D-представление сцены (OSCR), в котором объекты изображаются в виде полупрозрачных 3D-боксов, размещенных в виртуальной среде и отрендеренных с заданной точки зрения камеры. Прозрачность кодирует скрытые области объектов, позволяя модели учитывать заслонения, а рендеринг с определенной точки зрения обеспечивает явный контроль над камерой в процессе генерации. Мы используем предобученную flow-based текстово-изобразительную модель генерации, вводя набор визуальных токенов, полученных из нашего отрендеренного 3D-представления. Кроме того, мы применяем маскированную самовнимание для точной привязки каждого ограничивающего прямоугольника объекта к его текстовому описанию, что позволяет точно генерировать несколько объектов без смешивания их атрибутов. Для обучения модели мы создали синтетический датасет с разнообразными многопользовательскими сценами с сильными взаимными заслонениями объектов. SeeThrough3D эффективно обобщается на незнакомые категории объектов и обеспечивает точный контроль 3D-компоновки с реалистичными заслонениями и согласованным управлением камерой.

English

We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.

SeeThrough3D: Учет окклюзий при 3D-контроле в генерации изображений по текстовому описанию

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

Аннотация

Support