ChatPaper.aiChatPaper

MVD^2: 멀티뷰 디퓨전을 위한 효율적인 멀티뷰 3D 재구성

MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion

February 22, 2024
저자: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI

초록

유망한 3D 생성 기술로서, 멀티뷰 확산(Multiview Diffusion, MVD)은 일반화 능력, 품질, 효율성 측면에서의 장점으로 인해 많은 관심을 받고 있습니다. MVD 방법은 사전 학습된 대형 이미지 확산 모델을 3D 데이터로 미세 조정하여, 이미지 또는 텍스트 프롬프트를 기반으로 3D 객체의 여러 뷰를 먼저 생성한 다음, 멀티뷰 3D 재구성을 통해 3D 형태를 복원합니다. 그러나 생성된 이미지의 희소한 뷰와 일관성 없는 디테일로 인해 3D 재구성이 어려운 문제가 있습니다. 본 논문에서는 멀티뷰 확산(MVD) 이미지를 위한 효율적인 3D 재구성 방법인 MVD^2를 제안합니다. MVD^2는 투영과 컨볼루션을 통해 이미지 특징을 3D 특징 볼륨으로 집계한 다음, 볼륨 특징을 3D 메쉬로 디코딩합니다. 우리는 3D 형태 컬렉션과 3D 형태의 렌더링 뷰를 프롬프트로 한 MVD 이미지를 사용하여 MVD^2를 학습시킵니다. 생성된 멀티뷰 이미지와 3D 형태의 실제 뷰 간의 차이를 해결하기 위해, 간단하면서도 효율적인 뷰 종속 학습 방식을 설계했습니다. MVD^2는 MVD의 3D 생성 품질을 향상시키며, 다양한 MVD 방법에 대해 빠르고 강력합니다. 학습 후에는 1초 이내에 멀티뷰 이미지에서 3D 메쉬를 효율적으로 디코딩할 수 있습니다. 우리는 Zero-123++와 ObjectVerse-LVIS 3D 데이터셋을 사용하여 MVD^2를 학습시키고, 합성 및 실제 이미지를 프롬프트로 사용하여 다양한 MVD 방법으로 생성된 멀티뷰 이미지에서 3D 모델을 생성하는 데 있어 우수한 성능을 입증했습니다.
English
As a promising 3D generation technique, multiview diffusion (MVD) has received a lot of attention due to its advantages in terms of generalizability, quality, and efficiency. By finetuning pretrained large image diffusion models with 3D data, the MVD methods first generate multiple views of a 3D object based on an image or text prompt and then reconstruct 3D shapes with multiview 3D reconstruction. However, the sparse views and inconsistent details in the generated images make 3D reconstruction challenging. We present MVD^2, an efficient 3D reconstruction method for multiview diffusion (MVD) images. MVD^2 aggregates image features into a 3D feature volume by projection and convolution and then decodes volumetric features into a 3D mesh. We train MVD^2 with 3D shape collections and MVD images prompted by rendered views of 3D shapes. To address the discrepancy between the generated multiview images and ground-truth views of the 3D shapes, we design a simple-yet-efficient view-dependent training scheme. MVD^2 improves the 3D generation quality of MVD and is fast and robust to various MVD methods. After training, it can efficiently decode 3D meshes from multiview images within one second. We train MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its superior performance in generating 3D models from multiview images generated by different MVD methods, using both synthetic and real images as prompts.
PDF71December 15, 2024