보이지 않는 스티치: 깊이 인페인팅을 통해 부드러운 3D 장면 생성하기
Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting
April 30, 2024
저자: Paul Engstler, Andrea Vedaldi, Iro Laina, Christian Rupprecht
cs.AI
초록
3D 장면 생성은 2D 생성 확산 모델의 꾸준한 발전으로 인해 빠르게 도전적인 새로운 연구 방향으로 자리 잡았습니다. 이 분야의 대부분의 기존 연구는 새로 생성된 프레임을 기존 지오메트리와 반복적으로 결합하여 장면을 생성합니다. 이러한 연구들은 생성된 이미지를 3D로 변환하고 기존 장면 표현과 융합하기 위해 사전 훈련된 단안 깊이 추정기에 의존하는 경우가 많습니다. 이러한 접근 방식은 주로 생성된 이미지와 주어진 텍스트 프롬프트 간의 유사성을 측정하는 텍스트 메트릭을 통해 평가됩니다. 본 연구에서는 3D 장면 생성 분야에 두 가지 근본적인 기여를 합니다. 첫째, 단안 깊이 추정 모델을 사용하여 이미지를 3D로 변환하는 것은 기존 장면의 지오메트리를 무시하기 때문에 최적이 아니라는 점을 지적합니다. 따라서 우리는 교사 지식 증류와 자기 훈련을 통해 3D 융합 과정을 학습하도록 훈련된 새로운 깊이 완성 모델을 도입하여 장면의 기하학적 일관성을 개선합니다. 둘째, 우리는 장면 생성 방법을 위한 새로운 벤치마킹 방식을 소개합니다. 이 방식은 실측 지오메트리를 기반으로 하여 장면 구조의 품질을 측정합니다.
English
3D scene generation has quickly become a challenging new research direction,
fueled by consistent improvements of 2D generative diffusion models. Most prior
work in this area generates scenes by iteratively stitching newly generated
frames with existing geometry. These works often depend on pre-trained
monocular depth estimators to lift the generated images into 3D, fusing them
with the existing scene representation. These approaches are then often
evaluated via a text metric, measuring the similarity between the generated
images and a given text prompt. In this work, we make two fundamental
contributions to the field of 3D scene generation. First, we note that lifting
images to 3D with a monocular depth estimation model is suboptimal as it
ignores the geometry of the existing scene. We thus introduce a novel depth
completion model, trained via teacher distillation and self-training to learn
the 3D fusion process, resulting in improved geometric coherence of the scene.
Second, we introduce a new benchmarking scheme for scene generation methods
that is based on ground truth geometry, and thus measures the quality of the
structure of the scene.Summary
AI-Generated Summary