LucidDreamer: 도메인 제약 없는 3D 가우시안 스플래팅 장면 생성
LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
November 22, 2023
저자: Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
cs.AI
초록
VR 기기와 콘텐츠의 보급이 확대됨에 따라 3D 장면 생성 기술에 대한 수요가 증가하고 있다. 그러나 기존의 3D 장면 생성 모델은 실제 세계와 거리가 먼 3D 스캔 데이터셋을 사용한 훈련 전략으로 인해 특정 도메인에 한정된 장면을 대상으로 한다는 한계가 있다. 이러한 한계를 해결하기 위해, 우리는 기존의 대규모 확산 기반 생성 모델의 힘을 최대한 활용하여 도메인 제약 없이 장면을 생성할 수 있는 LucidDreamer 파이프라인을 제안한다. LucidDreamer는 Dreaming과 Alignment라는 두 가지 교대 단계로 구성된다. 먼저, 입력으로부터 다중 뷰 일관성 이미지를 생성하기 위해 포인트 클라우드를 각 이미지 생성의 기하학적 가이드라인으로 설정한다. 구체적으로, 포인트 클라우드의 일부를 원하는 뷰로 투영하고, 이를 생성 모델을 이용한 인페인팅의 가이드로 제공한다. 인페인팅된 이미지는 추정된 깊이 맵과 함께 3D 공간으로 리프트되어 새로운 포인트를 구성한다. 둘째, 새로운 포인트를 3D 장면에 통합하기 위해, 새로 생성된 3D 장면의 부분을 조화롭게 통합하는 정렬 알고리즘을 제안한다. 최종적으로 얻은 3D 장면은 가우시안 스플랫 최적화를 위한 초기 포인트로 사용된다. LucidDreamer는 이전의 3D 장면 생성 방법에 비해 매우 상세한 가우시안 스플랫을 생성하며, 대상 장면의 도메인에 대한 제약이 없다.
English
With the widespread usage of VR devices and contents, demands for 3D scene
generation techniques become more popular. Existing 3D scene generation models,
however, limit the target scene to specific domain, primarily due to their
training strategies using 3D scan dataset that is far from the real-world. To
address such limitation, we propose LucidDreamer, a domain-free scene
generation pipeline by fully leveraging the power of existing large-scale
diffusion-based generative model. Our LucidDreamer has two alternate steps:
Dreaming and Alignment. First, to generate multi-view consistent images from
inputs, we set the point cloud as a geometrical guideline for each image
generation. Specifically, we project a portion of point cloud to the desired
view and provide the projection as a guidance for inpainting using the
generative model. The inpainted images are lifted to 3D space with estimated
depth maps, composing a new points. Second, to aggregate the new points into
the 3D scene, we propose an aligning algorithm which harmoniously integrates
the portions of newly generated 3D scenes. The finally obtained 3D scene serves
as initial points for optimizing Gaussian splats. LucidDreamer produces
Gaussian splats that are highly-detailed compared to the previous 3D scene
generation methods, with no constraint on domain of the target scene.