Vista4D : Réalisation de Vidéo avec des Nuages de Points 4D
Vista4D: Video Reshooting with 4D Point Clouds
April 23, 2026
Auteurs: Kuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu
cs.AI
Résumé
Nous présentons Vista4D, un cadre robuste et flexible pour le réassaut vidéo qui ancre la vidéo d'entrée et les caméras cibles dans un nuage de points 4D. Concrètement, étant donné une vidéo d'entrée, notre méthode resynthétise la scène avec la même dynamique, mais à partir d'une trajectoire et d'un point de vue caméra différents. Les méthodes existantes de réassaut vidéo peinent souvent avec les artéfacts d'estimation de profondeur des vidéos dynamiques du monde réel, tout en échouant à préserver l'apparence du contenu et à maintenir un contrôle précis de la caméra pour de nouvelles trajectoires complexes. Nous construisons une représentation par nuage de points ancré en 4D avec une segmentation des pixels statiques et une reconstruction 4D pour préserver explicitement le contenu visible et fournir des signaux caméra riches, et nous entraînons le modèle avec des données dynamiques multivues reconstruites pour une robustesse contre les artéfacts du nuage de points lors de l'inférence en conditions réelles. Nos résultats démontrent une amélioration de la cohérence 4D, du contrôle de la caméra et de la qualité visuelle par rapport aux meilleures méthodes de référence sur une variété de vidéos et de trajectoires de caméra. De plus, notre méthode se généralise à des applications du monde réel telles que l'expansion de scènes dynamiques et la recomposition de scènes 4D. Consultez notre page projet pour les résultats, le code et les modèles : https://eyeline-labs.github.io/Vista4D
English
We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D