ChatPaper.aiChatPaper

SV3D: 잠재 비디오 확산 모델을 활용한 단일 이미지 기반의 새로운 다중 뷰 합성 및 3D 생성

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

March 18, 2024
저자: Vikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani
cs.AI

초록

우리는 3D 객체 주위를 도는 궤도 비디오의 고해상도 이미지-투-다중뷰 생성을 위한 잠재 비디오 확산 모델인 Stable Video 3D(SV3D)를 소개합니다. 최근 3D 생성 연구에서는 새로운 뷰 합성(NVS)과 3D 최적화를 위해 2D 생성 모델을 적용하는 기술을 제안했습니다. 그러나 이러한 방법들은 제한된 뷰나 일관되지 않은 NVS로 인해 여러 단점을 가지고 있어 3D 객체 생성의 성능에 영향을 미칩니다. 본 연구에서는 비디오 모델의 일반화 및 다중뷰 일관성을 활용하면서 NVS를 위한 명시적 카메라 제어를 추가하여, 이미지-투-비디오 확산 모델을 새로운 다중뷰 합성 및 3D 생성에 적용하는 SV3D를 제안합니다. 또한 SV3D와 그 NVS 출력을 이미지-투-3D 생성에 사용하기 위한 개선된 3D 최적화 기술을 제안합니다. 2D 및 3D 메트릭을 포함한 여러 데이터셋에 대한 광범위한 실험 결과와 사용자 연구는 SV3D가 NVS 및 3D 재구성에서 기존 연구 대비 최첨단 성능을 보임을 입증합니다.
English
We present Stable Video 3D (SV3D) -- a latent video diffusion model for high-resolution, image-to-multi-view generation of orbital videos around a 3D object. Recent work on 3D generation propose techniques to adapt 2D generative models for novel view synthesis (NVS) and 3D optimization. However, these methods have several disadvantages due to either limited views or inconsistent NVS, thereby affecting the performance of 3D object generation. In this work, we propose SV3D that adapts image-to-video diffusion model for novel multi-view synthesis and 3D generation, thereby leveraging the generalization and multi-view consistency of the video models, while further adding explicit camera control for NVS. We also propose improved 3D optimization techniques to use SV3D and its NVS outputs for image-to-3D generation. Extensive experimental results on multiple datasets with 2D and 3D metrics as well as user study demonstrate SV3D's state-of-the-art performance on NVS as well as 3D reconstruction compared to prior works.

Summary

AI-Generated Summary

PDF211December 15, 2024