Vidu4D: 단일 생성 비디오를 동적 가우시안 서펠을 활용한 고품질 4D 재구성으로 변환
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
저자: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
초록
비디오 생성 모델은 사실적이고 창의적인 프레임을 생성할 수 있는 능력으로 인해 특히 주목받고 있습니다. 또한, 이러한 모델은 강력한 3D 일관성을 보여주어 세계 시뮬레이터로서의 잠재력을 크게 향상시킵니다. 본 연구에서는 단일 생성 비디오에서 4D(즉, 순차적 3D) 표현을 정확하게 재구성하는 데 탁월한 성능을 보이는 새로운 재구성 모델인 Vidu4D를 소개합니다. 이 모델은 비강체성과 프레임 왜곡과 관련된 문제를 해결하며, 공간적 및 시간적 일관성을 유지하는 고품질 가상 콘텐츠를 생성하는 데 중요한 역할을 합니다. Vidu4D의 핵심은 우리가 제안한 Dynamic Gaussian Surfels(DGS) 기술입니다. DGS는 시간에 따라 변화하는 워핑 함수를 최적화하여 정적 상태의 Gaussian surfels(표면 요소)를 동적으로 왜곡된 상태로 변환합니다. 이 변환은 시간에 따른 움직임과 변형을 정밀하게 묘사할 수 있게 합니다. 표면 정렬된 Gaussian surfels의 구조적 무결성을 유지하기 위해, 우리는 법선을 추정하기 위한 연속적인 워핑 필드를 기반으로 한 왜곡 상태 기하학적 정규화를 설계했습니다. 또한, Gaussian surfels의 회전 및 스케일링 매개변수에 대한 개선을 학습하여 워핑 과정 중의 텍스처 깜빡임을 크게 완화하고 미세한 외관 세부 사항을 더 잘 포착할 수 있도록 했습니다. Vidu4D는 또한 DGS의 워핑 필드에 적절한 시작점을 제공하는 새로운 초기화 상태를 포함합니다. 기존의 비디오 생성 모델과 Vidu4D를 결합한 전체 프레임워크는 외관과 기하학 모두에서 고품질의 텍스트-투-4D 생성을 보여줍니다.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.Summary
AI-Generated Summary