잠재 확산 모델을 이용한 3D 가우시안 장면 초 단위 샘플링
Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models
June 18, 2024
저자: Paul Henderson, Melonie de Almeida, Daniela Ivanova, Titas Anciukevičius
cs.AI
초록
3D 장면에 대한 잠재 확산 모델을 제안하며, 이 모델은 2D 이미지 데이터만을 사용하여 학습할 수 있습니다. 이를 위해 먼저 다중 뷰 이미지를 3D 가우시안 스플랫으로 매핑하고, 동시에 이러한 스플랫의 압축된 잠재 표현을 구축하는 오토인코더를 설계합니다. 그런 다음, 잠재 공간 위에서 다중 뷰 확산 모델을 학습시켜 효율적인 생성 모델을 학습합니다. 이 파이프라인은 객체 마스크나 깊이 정보를 필요로 하지 않으며, 임의의 카메라 위치를 가진 복잡한 장면에 적합합니다. 복잡한 실제 세계 장면의 대규모 데이터셋인 MVImgNet과 RealEstate10K에 대해 신중한 실험을 수행했습니다. 우리의 접근 방식이 처음부터, 단일 입력 뷰에서, 또는 희소 입력 뷰에서 3D 장면을 0.2초 만에 생성할 수 있음을 보여줍니다. 이 모델은 비-잠재 확산 모델 및 이전의 NeRF 기반 생성 모델보다 한 차원 더 빠르게 실행되면서도 다양하고 고품질의 결과를 생성합니다.
English
We present a latent diffusion model over 3D scenes, that can be trained using
only 2D image data. To achieve this, we first design an autoencoder that maps
multi-view images to 3D Gaussian splats, and simultaneously builds a compressed
latent representation of these splats. Then, we train a multi-view diffusion
model over the latent space to learn an efficient generative model. This
pipeline does not require object masks nor depths, and is suitable for complex
scenes with arbitrary camera positions. We conduct careful experiments on two
large-scale datasets of complex real-world scenes -- MVImgNet and
RealEstate10K. We show that our approach enables generating 3D scenes in as
little as 0.2 seconds, either from scratch, from a single input view, or from
sparse input views. It produces diverse and high-quality results while running
an order of magnitude faster than non-latent diffusion models and earlier
NeRF-based generative modelsSummary
AI-Generated Summary