SV4D: 다중 프레임 및 다중 뷰 일관성을 통한 동적 3D 콘텐츠 생성
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency
July 24, 2024
저자: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI
초록
우리는 다중 프레임 및 다중 뷰 일관성을 갖춘 동적 3D 콘텐츠 생성을 위한 잠재 비디오 확산 모델인 Stable Video 4D(SV4D)를 제안합니다. 기존 방법들이 비디오 생성과 새로운 시점 합성을 위해 별도로 훈련된 생성 모델에 의존하는 것과 달리, 우리는 동적 3D 객체의 새로운 시점 비디오를 생성하기 위해 통합된 확산 모델을 설계했습니다. 구체적으로, 단안 참조 비디오가 주어지면 SV4D는 각 비디오 프레임에 대해 시간적으로 일관된 새로운 시점을 생성합니다. 그런 다음 생성된 새로운 시점 비디오를 사용하여 대부분의 기존 연구에서 사용된 번거로운 SDS 기반 최적화 없이도 효율적으로 암묵적 4D 표현(동적 NeRF)을 최적화합니다. 우리의 통합 새로운 시점 비디오 생성 모델을 훈련시키기 위해, 기존 Objaverse 데이터셋에서 동적 3D 객체 데이터셋을 정제했습니다. 여러 데이터셋에 대한 광범위한 실험 결과와 사용자 연구는 SV4D가 새로운 시점 비디오 합성 및 4D 생성 분야에서 기존 연구 대비 최첨단 성능을 보여줌을 입증합니다.
English
We present Stable Video 4D (SV4D), a latent video diffusion model for
multi-frame and multi-view consistent dynamic 3D content generation. Unlike
previous methods that rely on separately trained generative models for video
generation and novel view synthesis, we design a unified diffusion model to
generate novel view videos of dynamic 3D objects. Specifically, given a
monocular reference video, SV4D generates novel views for each video frame that
are temporally consistent. We then use the generated novel view videos to
optimize an implicit 4D representation (dynamic NeRF) efficiently, without the
need for cumbersome SDS-based optimization used in most prior works. To train
our unified novel view video generation model, we curated a dynamic 3D object
dataset from the existing Objaverse dataset. Extensive experimental results on
multiple datasets and user studies demonstrate SV4D's state-of-the-art
performance on novel-view video synthesis as well as 4D generation compared to
prior works.Summary
AI-Generated Summary