Champ de variation gaussien pour la diffusion et la synthèse haute fidélité de vidéo vers 4D
Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis
July 31, 2025
papers.authors: Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo
cs.AI
papers.abstract
Dans cet article, nous présentons un nouveau cadre pour la génération vidéo-à-4D qui crée du contenu 3D dynamique de haute qualité à partir d'entrées vidéo uniques. La modélisation directe de la diffusion 4D est extrêmement complexe en raison du coût élevé de la construction des données et de la nature haute dimensionnelle de la représentation conjointe de la forme 3D, de l'apparence et du mouvement. Nous relevons ces défis en introduisant un VAE de champ de variation Direct 4DMesh-to-GS qui encode directement les éclats gaussiens canoniques (GS) et leurs variations temporelles à partir de données d'animation 3D sans ajustement par instance, et compresse les animations haute dimensionnelle dans un espace latent compact. En nous appuyant sur cette représentation efficace, nous entraînons un modèle de diffusion de champ de variation gaussien avec un Transformer de diffusion temporellement conscient conditionné sur les vidéos d'entrée et les GS canoniques. Entraîné sur des objets 3D animables soigneusement sélectionnés du jeu de données Objaverse, notre modèle démontre une qualité de génération supérieure par rapport aux méthodes existantes. Il montre également une généralisation remarquable pour les entrées vidéo en conditions réelles, malgré un entraînement exclusivement sur des données synthétiques, ouvrant la voie à la génération de contenu 3D animé de haute qualité. Page du projet : https://gvfdiffusion.github.io/.
English
In this paper, we present a novel framework for video-to-4D generation that
creates high-quality dynamic 3D content from single video inputs. Direct 4D
diffusion modeling is extremely challenging due to costly data construction and
the high-dimensional nature of jointly representing 3D shape, appearance, and
motion. We address these challenges by introducing a Direct 4DMesh-to-GS
Variation Field VAE that directly encodes canonical Gaussian Splats (GS) and
their temporal variations from 3D animation data without per-instance fitting,
and compresses high-dimensional animations into a compact latent space.
Building upon this efficient representation, we train a Gaussian Variation
Field diffusion model with temporal-aware Diffusion Transformer conditioned on
input videos and canonical GS. Trained on carefully-curated animatable 3D
objects from the Objaverse dataset, our model demonstrates superior generation
quality compared to existing methods. It also exhibits remarkable
generalization to in-the-wild video inputs despite being trained exclusively on
synthetic data, paving the way for generating high-quality animated 3D content.
Project page: https://gvfdiffusion.github.io/.