Vidu4D : Reconstruction 4D haute fidélité à partir d'une vidéo unique générée avec des Surfels Gaussiennes dynamiques
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
papers.authors: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
papers.abstract
Les modèles génératifs vidéo suscitent un intérêt particulier en raison de leur capacité à produire des images réalistes et imaginatives. De plus, ces modèles montrent également une forte cohérence 3D, ce qui renforce considérablement leur potentiel en tant que simulateurs de mondes. Dans ce travail, nous présentons Vidu4D, un nouveau modèle de reconstruction qui excelle dans la reconstruction précise de représentations 4D (c'est-à-dire des séquences 3D) à partir de vidéos générées uniques, en abordant les défis liés à la non-rigidité et à la distorsion des images. Cette capacité est essentielle pour créer des contenus virtuels de haute fidélité qui maintiennent à la fois la cohérence spatiale et temporelle. Au cœur de Vidu4D se trouve notre technique proposée, les Dynamic Gaussian Surfels (DGS). Les DGS optimisent des fonctions de déformation variant dans le temps pour transformer les surfels gaussiens (éléments de surface) d'un état statique à un état dynamiquement déformé. Cette transformation permet une représentation précise du mouvement et de la déformation au fil du temps. Pour préserver l'intégrité structurelle des surfels gaussiens alignés sur la surface, nous concevons une régularisation géométrique de l'état déformé basée sur des champs de déformation continus pour estimer les normales. De plus, nous apprenons des ajustements sur les paramètres de rotation et d'échelle des surfels gaussiens, ce qui atténue grandement le scintillement des textures pendant le processus de déformation et améliore la capture des détails d'apparence fins. Vidu4D intègre également un nouvel état d'initialisation qui fournit un point de départ approprié pour les champs de déformation dans les DGS. En équipant Vidu4D d'un modèle génératif vidéo existant, le cadre global démontre une génération texte-à-4D de haute fidélité, tant en apparence qu'en géométrie.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.