RealmDreamer: 인페인팅과 깊이 확산을 통한 텍스트 기반 3D 장면 생성
RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion
April 10, 2024
저자: Jaidev Shriram, Alex Trevithick, Lingjie Liu, Ravi Ramamoorthi
cs.AI
초록
우리는 텍스트 설명으로부터 일반적인 전방향 3D 장면을 생성하는 기술인 RealmDreamer를 소개합니다. 우리의 기술은 복잡한 텍스트 프롬프트와 일치하도록 3D 가우시안 스플래팅 표현을 최적화합니다. 이러한 스플랫을 초기화하기 위해 최신 텍스트-이미지 생성기를 활용하고, 그 샘플을 3D로 변환한 후 오클루전 볼륨을 계산합니다. 그런 다음, 이미지 조건부 확산 모델을 사용하여 3D 인페인팅 작업으로 이 표현을 다중 뷰에 걸쳐 최적화합니다. 올바른 기하학적 구조를 학습하기 위해, 인페인팅 모델의 샘플을 조건으로 하는 깊이 확산 모델을 통합하여 풍부한 기하학적 구조를 제공합니다. 마지막으로, 이미지 생성기의 선명한 샘플을 사용하여 모델을 미세 조정합니다. 특히, 우리의 기술은 비디오나 다중 뷰 데이터를 필요로 하지 않으며, 다양한 스타일의 고품질 3D 장면을 여러 객체로 구성하여 합성할 수 있습니다. 이 기술의 일반성은 단일 이미지로부터도 3D 합성을 가능하게 합니다.
English
We introduce RealmDreamer, a technique for generation of general
forward-facing 3D scenes from text descriptions. Our technique optimizes a 3D
Gaussian Splatting representation to match complex text prompts. We initialize
these splats by utilizing the state-of-the-art text-to-image generators,
lifting their samples into 3D, and computing the occlusion volume. We then
optimize this representation across multiple views as a 3D inpainting task with
image-conditional diffusion models. To learn correct geometric structure, we
incorporate a depth diffusion model by conditioning on the samples from the
inpainting model, giving rich geometric structure. Finally, we finetune the
model using sharpened samples from image generators. Notably, our technique
does not require video or multi-view data and can synthesize a variety of
high-quality 3D scenes in different styles, consisting of multiple objects. Its
generality additionally allows 3D synthesis from a single image.Summary
AI-Generated Summary