ChatPaper.aiChatPaper

Urban Architect: 레이아웃 사전 정보를 활용한 조작 가능한 3D 도시 장면 생성

Urban Architect: Steerable 3D Urban Scene Generation with Layout Prior

April 10, 2024
저자: Fan Lu, Kwan-Yee Lin, Yan Xu, Hongsheng Li, Guang Chen, Changjun Jiang
cs.AI

초록

텍스트-3D 생성은 대규모 텍스트-이미지 확산 모델을 통해 놀라운 성과를 달성했습니다. 그러나 이러한 방법론을 도시 규모로 확장하기 위한 패러다임은 아직 존재하지 않습니다. 도시 장면은 수많은 요소, 복잡한 배치 관계, 그리고 광활한 규모로 특징지어지며, 모델 최적화를 위한 모호한 텍스트 설명의 해석 가능성에 있어서 큰 장벽으로 작용합니다. 본 연구에서는 이러한 한계를 극복하기 위해 텍스트-3D 패러다임에 구성적 3D 레이아웃 표현을 추가적인 사전 정보로 도입합니다. 이는 단순한 기하학적 구조와 명시적인 배치 관계를 가진 일련의 의미론적 기본 요소들로 구성되어, 텍스트 설명을 보완하고 조정 가능한 생성을 가능하게 합니다. 이를 바탕으로 두 가지 수정 사항을 제안합니다: (1) 모델 최적화의 부적절함을 해결하기 위해 레이아웃-가이드 변분 점수 증류를 도입합니다. 이는 3D 레이아웃의 기하학적 및 의미론적 제약 조건을 점수 증류 샘플링 과정에 적용합니다. (2) 도시 장면의 무한한 특성을 다루기 위해, 확장 가능한 해시 그리드 구조로 3D 장면을 표현하여 도시 장면의 증가하는 규모에 점진적으로 적응합니다. 광범위한 실험을 통해 우리의 프레임워크가 1000m 이상의 주행 거리를 커버하는 대규모 도시 장면으로 텍스트-3D 생성을 확장할 수 있는 능력을 처음으로 입증합니다. 또한 다양한 장면 편집 데모를 통해 조정 가능한 도시 장면 생성의 힘을 보여줍니다. 웹사이트: https://urbanarchitect.github.io.
English
Text-to-3D generation has achieved remarkable success via large-scale text-to-image diffusion models. Nevertheless, there is no paradigm for scaling up the methodology to urban scale. Urban scenes, characterized by numerous elements, intricate arrangement relationships, and vast scale, present a formidable barrier to the interpretability of ambiguous textual descriptions for effective model optimization. In this work, we surmount the limitations by introducing a compositional 3D layout representation into text-to-3D paradigm, serving as an additional prior. It comprises a set of semantic primitives with simple geometric structures and explicit arrangement relationships, complementing textual descriptions and enabling steerable generation. Upon this, we propose two modifications -- (1) We introduce Layout-Guided Variational Score Distillation to address model optimization inadequacies. It conditions the score distillation sampling process with geometric and semantic constraints of 3D layouts. (2) To handle the unbounded nature of urban scenes, we represent 3D scene with a Scalable Hash Grid structure, incrementally adapting to the growing scale of urban scenes. Extensive experiments substantiate the capability of our framework to scale text-to-3D generation to large-scale urban scenes that cover over 1000m driving distance for the first time. We also present various scene editing demonstrations, showing the powers of steerable urban scene generation. Website: https://urbanarchitect.github.io.

Summary

AI-Generated Summary

PDF101December 15, 2024