Vidu4D: 単一生成動画からダイナミックガウシアンサーフェルを用いた高忠実度4D再構築へ
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels
May 27, 2024
著者: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI
要旨
ビデオ生成モデルは、現実的で想像力豊かなフレームを生成する能力から特に注目を集めています。さらに、これらのモデルは強力な3D一貫性を示すことが観察されており、世界シミュレータとしての潜在能力を大幅に高めています。本研究では、Vidu4Dという新しい再構成モデルを提案します。Vidu4Dは、単一の生成ビデオから4D(すなわち、連続的な3D)表現を正確に再構成するのに優れており、非剛性やフレームの歪みに関連する課題に対処します。この能力は、空間的および時間的整合性を維持する高忠実度の仮想コンテンツを作成するために極めて重要です。Vidu4Dの中核には、提案するDynamic Gaussian Surfels(DGS)技術があります。DGSは、時間的に変化するワーピング関数を最適化し、Gaussian surfels(表面要素)を静的状態から動的に歪んだ状態に変換します。この変換により、時間経過に伴う動きと変形を正確に描写することが可能になります。表面に整列したGaussian surfelsの構造的整合性を保つために、連続的なワーピング場に基づいて歪んだ状態の幾何学的正則化を設計し、法線を推定します。さらに、Gaussian surfelsの回転およびスケーリングパラメータの改良を学習することで、ワーピングプロセス中のテクスチャのちらつきを大幅に軽減し、微細な外観の詳細をより良く捉えます。Vidu4Dには、DGSのワーピング場に適切な開始点を提供する新しい初期化状態も含まれています。既存のビデオ生成モデルをVidu4Dに組み込むことで、全体のフレームワークは、外観と幾何学の両方において高忠実度のテキストから4Dへの生成を示します。
English
Video generative models are receiving particular attention given their
ability to generate realistic and imaginative frames. Besides, these models are
also observed to exhibit strong 3D consistency, significantly enhancing their
potential to act as world simulators. In this work, we present Vidu4D, a novel
reconstruction model that excels in accurately reconstructing 4D (i.e.,
sequential 3D) representations from single generated videos, addressing
challenges associated with non-rigidity and frame distortion. This capability
is pivotal for creating high-fidelity virtual contents that maintain both
spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic
Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions
to transform Gaussian surfels (surface elements) from a static state to a
dynamically warped state. This transformation enables a precise depiction of
motion and deformation over time. To preserve the structural integrity of
surface-aligned Gaussian surfels, we design the warped-state geometric
regularization based on continuous warping fields for estimating normals.
Additionally, we learn refinements on rotation and scaling parameters of
Gaussian surfels, which greatly alleviates texture flickering during the
warping process and enhances the capture of fine-grained appearance details.
Vidu4D also contains a novel initialization state that provides a proper start
for the warping fields in DGS. Equipping Vidu4D with an existing video
generative model, the overall framework demonstrates high-fidelity text-to-4D
generation in both appearance and geometry.Summary
AI-Generated Summary