Hi3D: 비디오 확산 모델을 활용한 고해상도 이미지에서 3D 생성 추구
Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models
September 11, 2024
저자: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei
cs.AI
초록
이미지에서 3D로의 생성에서 엄청난 진전을 이루었음에도 불구하고, 기존 방법은 여전히 2D 확산 패러다임에서 특히 3D 인식이 부족한 상세한 고해상도 텍스처를 가진 다중 뷰 일관성 이미지를 생성하는 데 어려움을 겪고 있다. 본 연구에서는 고해상도 이미지에서 3D 모델 (Hi3D)을 제시하며, 이는 새로운 비디오 확산 기반 패러다임으로, 단일 이미지를 3D 인식 순차 이미지 생성(즉, 궤도 비디오 생성)으로 재정의한다. 이 방법론은 비디오 확산 모델의 기저적 시간 일관성 지식을 탐구하여 다중 뷰에서 3D 생성에 걸쳐 일반화되는 기하학적 일관성에 대해 다룬다. 기술적으로, Hi3D는 먼저 사전 훈련된 비디오 확산 모델을 3D 인식 사전(카메라 포즈 조건)으로 강화하여 저해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 생성한다. 3D 인식 비디오에서 비디오로의 개선기는 더 높은 해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 확장하기 위해 학습된다. 이러한 고해상도 다중 뷰 이미지는 3D 가우시안 스플래팅을 통해 새로운 뷰로 확장되며, 이후 3D 재구성을 통해 고성능 메쉬를 얻기 위해 활용된다. 새로운 뷰 합성 및 단일 뷰 재구성에 대한 광범위한 실험은 Hi3D가 고해상도 텍스처를 가진 우수한 다중 뷰 일관성 이미지를 생성하는 데 성공했음을 보여준다. 소스 코드와 데이터는 https://github.com/yanghb22-fdu/Hi3D-Official에서 제공된다.
English
Despite having tremendous progress in image-to-3D generation, existing
methods still struggle to produce multi-view consistent images with
high-resolution textures in detail, especially in the paradigm of 2D diffusion
that lacks 3D awareness. In this work, we present High-resolution Image-to-3D
model (Hi3D), a new video diffusion based paradigm that redefines a single
image to multi-view images as 3D-aware sequential image generation (i.e.,
orbital video generation). This methodology delves into the underlying temporal
consistency knowledge in video diffusion model that generalizes well to
geometry consistency across multiple views in 3D generation. Technically, Hi3D
first empowers the pre-trained video diffusion model with 3D-aware prior
(camera pose condition), yielding multi-view images with low-resolution texture
details. A 3D-aware video-to-video refiner is learnt to further scale up the
multi-view images with high-resolution texture details. Such high-resolution
multi-view images are further augmented with novel views through 3D Gaussian
Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D
reconstruction. Extensive experiments on both novel view synthesis and single
view reconstruction demonstrate that our Hi3D manages to produce superior
multi-view consistency images with highly-detailed textures. Source code and
data are available at https://github.com/yanghb22-fdu/Hi3D-Official.Summary
AI-Generated Summary