ChatPaper.aiChatPaper

SeeThrough3D: 텍스트-이미지 생성에서의 폐색 인식 3D 제어

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

February 26, 2026
저자: Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat, Ravi Kiran Sarvadevabhatla, R. Venkatesh Babu
cs.AI

초록

우리는 3D 레이아웃 조건 기반 생성에서 폐색 추론이 근본적이면서도 간과된 측면이라고 판단합니다. 이는 부분적으로 가려진 객체를 깊이에 일관된 기하학적 구조와 규모로 합성하는 데 필수적입니다. 기존 방법들은 입력 레이아웃을 따르는 현실적인 장면을 생성할 수 있지만, 정확한 객체 간 폐색을 모델링하는 데는 종종 실패합니다. 우리는 폐색을 명시적으로 모델링하는 3D 레이아웃 조건 기반 생성 모델인 SeeThrough3D를 제안합니다. 우리는 폐색 인식 3D 장면 표현(OSCR)을 도입했는데, 여기서 객체는 가상 환경 내에 배치된 반투명 3D 박스로 묘사되고 원하는 카메라 시점에서 렌더링됩니다. 투명도는 가려진 객체 영역을 인코딩하여 모델이 폐색을 추론할 수 있게 하며, 렌더링된 시점은 생성 과정에서 명시적인 카메라 제어를 제공합니다. 우리는 사전 학습된 흐름 기반 텍스트-이미지 생성 모델에 렌더링된 3D 표현에서 파생된 일련의 시각적 토큰을 도입하여 조건을 부여합니다. 더 나아가 마스크된 자기 주의를 적용하여 각 객체 경계 상자를 해당 텍스트 설명에 정확하게 연결함으로써 객체 속성 혼합 없이 여러 객체를 정확하게 생성할 수 있게 합니다. 모델 학습을 위해 객체 간 강한 폐색이 있는 다양한 다중 객체 장면으로 구성된 합성 데이터셋을 구축했습니다. SeeThrough3D는 보이지 않는 객체 범주에 효과적으로 일반화되며, 현실적인 폐색과 일관된 카메라 제어를 통한 정밀한 3D 레이아웃 제어를 가능하게 합니다.
English
We identify occlusion reasoning as a fundamental yet overlooked aspect for 3D layout-conditioned generation. It is essential for synthesizing partially occluded objects with depth-consistent geometry and scale. While existing methods can generate realistic scenes that follow input layouts, they often fail to model precise inter-object occlusions. We propose SeeThrough3D, a model for 3D layout conditioned generation that explicitly models occlusions. We introduce an occlusion-aware 3D scene representation (OSCR), where objects are depicted as translucent 3D boxes placed within a virtual environment and rendered from desired camera viewpoint. The transparency encodes hidden object regions, enabling the model to reason about occlusions, while the rendered viewpoint provides explicit camera control during generation. We condition a pretrained flow based text-to-image image generation model by introducing a set of visual tokens derived from our rendered 3D representation. Furthermore, we apply masked self-attention to accurately bind each object bounding box to its corresponding textual description, enabling accurate generation of multiple objects without object attribute mixing. To train the model, we construct a synthetic dataset with diverse multi-object scenes with strong inter-object occlusions. SeeThrough3D generalizes effectively to unseen object categories and enables precise 3D layout control with realistic occlusions and consistent camera control.
PDF21March 4, 2026