ChatPaper.aiChatPaper

Vista4D: Video-opnames opnieuw maken met 4D-puntenwolken

Vista4D: Video Reshooting with 4D Point Clouds

April 23, 2026
Auteurs: Kuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu
cs.AI

Samenvatting

Wij presenteren Vista4D, een robuust en flexibel raamwerk voor het opnieuw filmen van video's dat de invoervideo en doelcamera's verankert in een 4D-puntenwolk. Concreet hersynthetiseert onze methode, gegeven een invoervideo, de scène met dezelfde dynamiek vanuit een verschillende cameratrajectorie en gezichtspunt. Bestaande methodes voor videoherfilming kampen vaak met artefacten uit diepteschatting van dynamische video's uit de echte wereld, terwijl ze er ook niet in slagen de inhoudsweergave te behouden en nauwkeurige camerabesturing voor uitdagende nieuwe trajecten te handhaven. Wij bouwen een 4D-gebaseerde puntenwolkrepresentatie met statische pixelssegmentatie en 4D-reconstructie om waargenomen inhoud expliciet te behouden en rijke camerasignalen te bieden, en we trainen met gereconstrueerde multiview-dynamische data voor robuustheid tegen puntenwolkartefacten tijdens inferentie in de echte wereld. Onze resultaten tonen een verbeterde 4D-consistentie, camerabesturing en visuele kwaliteit in vergelijking met state-of-the-art basislijnen onder een verscheidenheid aan video's en camerapaden. Bovendien generaliseert onze methode naar toepassingen in de echte wereld, zoals dynamische scène-uitbreiding en 4D-scènehercompositie. Zie onze projectpagina voor resultaten, code en modellen: https://eyeline-labs.github.io/Vista4D
English
We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D
PDF31April 25, 2026