Vidu4D: Reconstrucción 4D de alta fidelidad a partir de un único vídeo generado mediante Gaussian Surfels dinámicos
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
Autores: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
Resumen
Los modelos generativos de video están recibiendo especial atención debido a su capacidad para generar fotogramas realistas e imaginativos. Además, se ha observado que estos modelos también exhiben una fuerte consistencia 3D, lo que aumenta significativamente su potencial para actuar como simuladores del mundo. En este trabajo, presentamos Vidu4D, un novedoso modelo de reconstrucción que destaca en la reconstrucción precisa de representaciones 4D (es decir, secuencias 3D) a partir de videos generados individuales, abordando los desafíos asociados con la no rigidez y la distorsión de fotogramas. Esta capacidad es fundamental para crear contenidos virtuales de alta fidelidad que mantengan tanto la coherencia espacial como temporal. En el núcleo de Vidu4D se encuentra nuestra técnica propuesta de Dynamic Gaussian Surfels (DGS). DGS optimiza funciones de deformación que varían en el tiempo para transformar los surfels gaussianos (elementos de superficie) de un estado estático a un estado deformado dinámicamente. Esta transformación permite una representación precisa del movimiento y la deformación a lo largo del tiempo. Para preservar la integridad estructural de los surfels gaussianos alineados con la superficie, diseñamos una regularización geométrica del estado deformado basada en campos de deformación continuos para estimar las normales. Además, aprendemos refinamientos en los parámetros de rotación y escalado de los surfels gaussianos, lo que mitiga en gran medida el parpadeo de texturas durante el proceso de deformación y mejora la captura de detalles de apariencia de grano fino. Vidu4D también incluye un estado de inicialización novedoso que proporciona un comienzo adecuado para los campos de deformación en DGS. Al equipar Vidu4D con un modelo generativo de video existente, el marco general demuestra una generación de texto a 4D de alta fidelidad tanto en apariencia como en geometría.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.Summary
AI-Generated Summary