Vidu4D: Reconstrução 4D de Alta Fidelidade a partir de um Único Vídeo Gerado com Gaussian Surfels Dinâmicos
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
Autores: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
Resumo
Modelos generativos de vídeo estão recebendo atenção especial devido à sua capacidade de gerar quadros realistas e imaginativos. Além disso, observa-se que esses modelos também exibem uma forte consistência 3D, aumentando significativamente seu potencial para atuar como simuladores de mundos. Neste trabalho, apresentamos o Vidu4D, um modelo de reconstrução inovador que se destaca na reconstrução precisa de representações 4D (ou seja, 3D sequenciais) a partir de vídeos gerados individualmente, abordando desafios associados à não-rigidez e à distorção de quadros. Essa capacidade é crucial para a criação de conteúdos virtuais de alta fidelidade que mantêm coerência tanto espacial quanto temporal. No cerne do Vidu4D está nossa técnica proposta de Dynamic Gaussian Surfels (DGS). O DGS otimiza funções de deformação variáveis no tempo para transformar Gaussian surfels (elementos de superfície) de um estado estático para um estado dinamicamente deformado. Essa transformação permite uma representação precisa de movimento e deformação ao longo do tempo. Para preservar a integridade estrutural dos Gaussian surfels alinhados à superfície, projetamos a regularização geométrica do estado deformado com base em campos de deformação contínuos para estimar normais. Além disso, aprendemos refinamentos nos parâmetros de rotação e escala dos Gaussian surfels, o que alivia significativamente o flickering de textura durante o processo de deformação e melhora a captura de detalhes de aparência refinados. O Vidu4D também contém um estado de inicialização inovador que fornece um começo adequado para os campos de deformação no DGS. Equipando o Vidu4D com um modelo generativo de vídeo existente, o framework geral demonstra geração de texto-para-4D de alta fidelidade tanto em aparência quanto em geometria.
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.