Vista4D: Video-Neuaufnahme mit 4D-Punktwolken
Vista4D: Video Reshooting with 4D Point Clouds
April 23, 2026
Autoren: Kuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu
cs.AI
Zusammenfassung
Wir stellen Vista4D vor, ein robustes und flexibles Framework zur Neuaufnahme von Videos, das das Eingabevideo und die Zielkameras in einer 4D-Punktwolke verankert. Konkret synthetisiert unsere Methode bei einem gegebenen Eingabevideo die Szene mit denselben Dynamiken aus einer anderen Kameratrajektorie und Perspektive neu. Bestehende Methoden zur Video-Neuaufnahme haben häufig mit Artefakten bei der Tiefenschätzung von dynamischen Videos der realen Welt zu kämpfen, während sie gleichzeitig die Erscheinung des Inhalts nicht bewahren und eine präzise Kamerasteuerung für anspruchsvolle neue Trajektorien nicht aufrechterhalten können. Wir bauen eine 4D-verankerte Punktwolken-Repräsentation mit statischer Pixel-Segmentierung und 4D-Rekonstruktion auf, um gesehene Inhalte explizit zu bewahren und reichhaltige Kamerainformationen bereitzustellen, und wir trainieren mit rekonstruierten multiview-dynamischen Daten, um Robustheit gegenüber Punktwolken-Artefakten während des Einsatzes in der realen Welt zu erreichen. Unsere Ergebnisse demonstrieren im Vergleich zu state-of-the-art Baseline-Methoden bei einer Vielzahl von Videos und Kamerapfaden eine verbesserte 4D-Konsistenz, Kamerasteuerung und visuelle Qualität. Darüber hinaus verallgemeinert sich unsere Methode auf reale Anwendungen wie die Erweiterung dynamischer Szenen und die 4D-Szenenneukomposition. Ergebnisse, Code und Modelle finden Sie auf unserer Projektseite: https://eyeline-labs.github.io/Vista4D
English
We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D