Vista4D: Ripresa Video con Nuvole di Punti 4D

Abstract

Presentiamo Vista4D, un framework robusto e flessibile per il re-shooting video che ancorà il video di input e le telecamere target in una nuvola di punti 4D. Nello specifico, dato un video in input, il nostro metodo risintetizza la scena con le stesse dinamiche da una diversa traiettoria e punto di vista della telecamera. I metodi esistenti di re-shooting video spesso incontrano difficoltà con gli artefatti della stima della profondità nei video dinamici del mondo reale, fallendo inoltre nel preservare l'aspetto del contenuto e nel mantenere un controllo preciso della telecamera per traiettorie nuove e complesse. Costruiamo una rappresentazione a nuvola di punti ancorata in 4D con segmentazione dei pixel statici e ricostruzione 4D per preservare esplicitamente il contenuto visto e fornire segnali di telecamera ricchi, e addestriamo il sistema con dati dinamici multiview ricostruiti per garantire robustezza contro gli artefatti della nuvola di punti durante l'inferenza nel mondo reale. I nostri risultati dimostrano un miglioramento nella consistenza 4D, nel controllo della telecamera e nella qualità visiva rispetto ai baseline state-of-the-art su una varietà di video e percorsi di telecamera. Inoltre, il nostro metodo si generalizza per applicazioni nel mondo reale come l'espansione di scene dinamiche e la ricomposizione di scene 4D. Visita la nostra pagina del progetto per risultati, codice e modelli: https://eyeline-labs.github.io/Vista4D

English

We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D

Vista4D: Ripresa Video con Nuvole di Punti 4D

Vista4D: Video Reshooting with 4D Point Clouds

Abstract

Support