Vidu4D: Enkele gegenereerde video naar hoogwaardige 4D-reconstructie met dynamische Gaussische surfels
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
Auteurs: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
Samenvatting
Videogeneratieve modellen krijgen bijzondere aandacht vanwege hun vermogen om realistische en fantasierijke frames te genereren. Bovendien wordt waargenomen dat deze modellen een sterke 3D-consistentie vertonen, wat hun potentieel als wereld-simulators aanzienlijk vergroot. In dit werk presenteren we Vidu4D, een innovatief reconstructiemodel dat uitblinkt in het nauwkeurig reconstrueren van 4D-representaties (d.w.z. sequentiële 3D) vanuit enkele gegenereerde video's, waarbij uitdagingen gerelateerd aan niet-rigiditeit en frame-vervorming worden aangepakt. Deze mogelijkheid is cruciaal voor het creëren van hoogwaardige virtuele inhoud die zowel ruimtelijke als temporele coherentie behoudt. De kern van Vidu4D bestaat uit onze voorgestelde Dynamic Gaussian Surfels (DGS)-techniek. DGS optimaliseert tijdvariërende vervormingsfuncties om Gaussische surfels (oppervlakte-elementen) van een statische toestand naar een dynamisch vervormde toestand te transformeren. Deze transformatie maakt een nauwkeurige weergave van beweging en vervorming over tijd mogelijk. Om de structurele integriteit van oppervlakte-uitgelijnde Gaussische surfels te behouden, ontwerpen we de geometrische regularisatie van de vervormde toestand op basis van continue vervormingsvelden voor het schatten van normalen. Daarnaast leren we verfijningen aan de rotatie- en schaalparameters van Gaussische surfels, wat texture-flickering tijdens het vervormingsproces aanzienlijk vermindert en de vastlegging van fijnmazige uiterlijkdetails verbetert. Vidu4D bevat ook een nieuw initiatiestaat die een goede start biedt voor de vervormingsvelden in DGS. Door Vidu4D uit te rusten met een bestaand videogeneratief model, toont het algemene framework hoogwaardige tekst-naar-4D-generatie in zowel uiterlijk als geometrie.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.