ChatPaper.aiChatPaper

Hi3D: 비디오 확산 모델을 활용한 고해상도 이미지에서 3D 생성 추구

Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models

September 11, 2024
저자: Haibo Yang, Yang Chen, Yingwei Pan, Ting Yao, Zhineng Chen, Chong-Wah Ngo, Tao Mei
cs.AI

초록

이미지에서 3D로의 생성에서 엄청난 진전을 이루었음에도 불구하고, 기존 방법은 여전히 2D 확산 패러다임에서 특히 3D 인식이 부족한 상세한 고해상도 텍스처를 가진 다중 뷰 일관성 이미지를 생성하는 데 어려움을 겪고 있다. 본 연구에서는 고해상도 이미지에서 3D 모델 (Hi3D)을 제시하며, 이는 새로운 비디오 확산 기반 패러다임으로, 단일 이미지를 3D 인식 순차 이미지 생성(즉, 궤도 비디오 생성)으로 재정의한다. 이 방법론은 비디오 확산 모델의 기저적 시간 일관성 지식을 탐구하여 다중 뷰에서 3D 생성에 걸쳐 일반화되는 기하학적 일관성에 대해 다룬다. 기술적으로, Hi3D는 먼저 사전 훈련된 비디오 확산 모델을 3D 인식 사전(카메라 포즈 조건)으로 강화하여 저해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 생성한다. 3D 인식 비디오에서 비디오로의 개선기는 더 높은 해상도 텍스처 세부 사항을 가진 다중 뷰 이미지를 확장하기 위해 학습된다. 이러한 고해상도 다중 뷰 이미지는 3D 가우시안 스플래팅을 통해 새로운 뷰로 확장되며, 이후 3D 재구성을 통해 고성능 메쉬를 얻기 위해 활용된다. 새로운 뷰 합성 및 단일 뷰 재구성에 대한 광범위한 실험은 Hi3D가 고해상도 텍스처를 가진 우수한 다중 뷰 일관성 이미지를 생성하는 데 성공했음을 보여준다. 소스 코드와 데이터는 https://github.com/yanghb22-fdu/Hi3D-Official에서 제공된다.
English
Despite having tremendous progress in image-to-3D generation, existing methods still struggle to produce multi-view consistent images with high-resolution textures in detail, especially in the paradigm of 2D diffusion that lacks 3D awareness. In this work, we present High-resolution Image-to-3D model (Hi3D), a new video diffusion based paradigm that redefines a single image to multi-view images as 3D-aware sequential image generation (i.e., orbital video generation). This methodology delves into the underlying temporal consistency knowledge in video diffusion model that generalizes well to geometry consistency across multiple views in 3D generation. Technically, Hi3D first empowers the pre-trained video diffusion model with 3D-aware prior (camera pose condition), yielding multi-view images with low-resolution texture details. A 3D-aware video-to-video refiner is learnt to further scale up the multi-view images with high-resolution texture details. Such high-resolution multi-view images are further augmented with novel views through 3D Gaussian Splatting, which are finally leveraged to obtain high-fidelity meshes via 3D reconstruction. Extensive experiments on both novel view synthesis and single view reconstruction demonstrate that our Hi3D manages to produce superior multi-view consistency images with highly-detailed textures. Source code and data are available at https://github.com/yanghb22-fdu/Hi3D-Official.

Summary

AI-Generated Summary

PDF222November 16, 2024