Vista4D: Regrabación de Vídeo con Nubes de Puntos 4D
Vista4D: Video Reshooting with 4D Point Clouds
April 23, 2026
Autores: Kuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu
cs.AI
Resumen
Presentamos Vista4D, un marco robusto y flexible para el replanteamiento de vídeo que ancla el vídeo de entrada y las cámaras objetivo en una nube de puntos 4D. Específicamente, dado un vídeo de entrada, nuestro método resintetiza la escena con la misma dinámica desde una trayectoria y punto de vista de cámara diferentes. Los métodos existentes de replanteamiento de vídeo suelen tener dificultades con los artefactos de estimación de profundidad en vídeos dinámicos del mundo real, al mismo tiempo que no logran preservar la apariencia del contenido ni mantener un control preciso de la cámara para trayectorias nuevas y desafiantes. Construimos una representación de nube de puntos anclada en 4D con segmentación de píxeles estáticos y reconstrucción 4D para preservar explícitamente el contenido visto y proporcionar señales de cámara ricas, y entrenamos con datos dinámicos multivista reconstruidos para lograr robustez contra artefactos en la nube de puntos durante la inferencia en el mundo real. Nuestros resultados demuestran una mejora en la consistencia 4D, el control de cámara y la calidad visual en comparación con los métodos de referencia más avanzados en una variedad de vídeos y trayectorias de cámara. Además, nuestro método se generaliza a aplicaciones del mundo real como la expansión de escenas dinámicas y la recomposición de escenas 4D. Consulte nuestra página del proyecto para ver resultados, código y modelos: https://eyeline-labs.github.io/Vista4D
English
We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D