Vidu4D: Da un singolo video generato alla ricostruzione 4D ad alta fedeltà con Surfels Gaussiani Dinamici
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
Autori: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
Abstract
I modelli generativi video stanno ricevendo particolare attenzione grazie alla loro capacità di generare frame realistici e immaginativi. Inoltre, si osserva che questi modelli mostrano una forte coerenza 3D, migliorando significativamente il loro potenziale come simulatori di mondi. In questo lavoro, presentiamo Vidu4D, un innovativo modello di ricostruzione che eccelle nel ricostruire accuratamente rappresentazioni 4D (cioè sequenze 3D) da singoli video generati, affrontando le sfide associate alla non rigidità e alla distorsione dei frame. Questa capacità è fondamentale per creare contenuti virtuali ad alta fedeltà che mantengano coerenza sia spaziale che temporale. Al cuore di Vidu4D si trova la nostra tecnica proposta, i Dynamic Gaussian Surfels (DGS). I DGS ottimizzano funzioni di deformazione variabili nel tempo per trasformare i Gaussian surfels (elementi di superficie) da uno stato statico a uno stato deformato dinamicamente. Questa trasformazione consente una rappresentazione precisa del movimento e della deformazione nel tempo. Per preservare l'integrità strutturale dei Gaussian surfels allineati alla superficie, progettiamo una regolarizzazione geometrica dello stato deformato basata su campi di deformazione continui per stimare le normali. Inoltre, apprendiamo perfezionamenti sui parametri di rotazione e scalatura dei Gaussian surfels, che alleviano notevolmente lo sfarfallio della texture durante il processo di deformazione e migliorano la cattura dei dettagli fini dell'aspetto. Vidu4D include anche uno stato di inizializzazione innovativo che fornisce un punto di partenza adeguato per i campi di deformazione nei DGS. Dotando Vidu4D di un modello generativo video esistente, il framework complessivo dimostra una generazione testo-a-4D ad alta fedeltà sia nell'aspetto che nella geometria.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.