GS-DiT : Faire progresser la génération de vidéos avec des champs gaussiens pseudo 4D grâce à un suivi efficace des points denses en 3D.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking
January 5, 2025
Auteurs: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li
cs.AI
Résumé
Le contrôle vidéo en 4D est essentiel dans la génération de vidéos car il permet l'utilisation de techniques sophistiquées de lentilles, telles que le tournage multi-caméras et le zoom à la dolly, actuellement non pris en charge par les méthodes existantes. Entraîner un Transformateur de Diffusion Vidéo (DiT) directement pour contrôler du contenu en 4D nécessite des vidéos multi-vues coûteuses. Inspirés par la Synthèse de Nouvelles Vues Dynamiques Monoculaires (MDVS) qui optimise une représentation en 4D et rend des vidéos selon différents éléments en 4D, tels que la pose de la caméra et l'édition du mouvement de l'objet, nous introduisons des champs gaussiens pseudo 4D dans la génération de vidéos. Plus précisément, nous proposons un nouveau cadre qui construit un champ gaussien pseudo 4D avec un suivi dense de points 3D et rend le champ gaussien pour tous les cadres vidéo. Ensuite, nous affinons un DiT pré-entraîné pour générer des vidéos en suivant les indications de la vidéo rendue, appelé GS-DiT. Pour améliorer l'entraînement du GS-DiT, nous proposons également une méthode efficace de Suivi de Points 3D Denses (D3D-PT) pour la construction du champ gaussien pseudo 4D. Notre D3D-PT surpasse SpatialTracker, la méthode de suivi de points 3D épars de pointe, en précision et accélère la vitesse d'inférence de deux ordres de grandeur. Pendant l'étape d'inférence, GS-DiT peut générer des vidéos avec le même contenu dynamique tout en respectant différents paramètres de la caméra, résolvant une limitation significative des modèles actuels de génération de vidéos. GS-DiT démontre de solides capacités de généralisation et étend la contrôlabilité en 4D du Gaussian Splatting à la génération de vidéos au-delà des seules poses de caméra. Il prend en charge des effets cinématographiques avancés grâce à la manipulation du champ gaussien et des intrinsèques de la caméra, en faisant un outil puissant pour la production vidéo créative. Des démonstrations sont disponibles sur https://wkbian.github.io/Projects/GS-DiT/.
English
4D video control is essential in video generation as it enables the use of
sophisticated lens techniques, such as multi-camera shooting and dolly zoom,
which are currently unsupported by existing methods. Training a video Diffusion
Transformer (DiT) directly to control 4D content requires expensive multi-view
videos. Inspired by Monocular Dynamic novel View Synthesis (MDVS) that
optimizes a 4D representation and renders videos according to different 4D
elements, such as camera pose and object motion editing, we bring pseudo 4D
Gaussian fields to video generation. Specifically, we propose a novel framework
that constructs a pseudo 4D Gaussian field with dense 3D point tracking and
renders the Gaussian field for all video frames. Then we finetune a pretrained
DiT to generate videos following the guidance of the rendered video, dubbed as
GS-DiT. To boost the training of the GS-DiT, we also propose an efficient Dense
3D Point Tracking (D3D-PT) method for the pseudo 4D Gaussian field
construction. Our D3D-PT outperforms SpatialTracker, the state-of-the-art
sparse 3D point tracking method, in accuracy and accelerates the inference
speed by two orders of magnitude. During the inference stage, GS-DiT can
generate videos with the same dynamic content while adhering to different
camera parameters, addressing a significant limitation of current video
generation models. GS-DiT demonstrates strong generalization capabilities and
extends the 4D controllability of Gaussian splatting to video generation beyond
just camera poses. It supports advanced cinematic effects through the
manipulation of the Gaussian field and camera intrinsics, making it a powerful
tool for creative video production. Demos are available at
https://wkbian.github.io/Projects/GS-DiT/.Summary
AI-Generated Summary