Vista4D: Regravação de Vídeo com Nuvens de Pontos 4D

Resumo

Apresentamos o Vista4D, uma estrutura robusta e flexível para regravação de vídeos que ancora o vídeo de entrada e as câmeras-alvo em uma nuvem de pontos 4D. Especificamente, dado um vídeo de entrada, nosso método ressintetiza a cena com a mesma dinâmica a partir de uma trajetória e ponto de vista de câmera diferentes. Os métodos existentes de regravação de vídeo frequentemente lutam com artefatos de estimativa de profundidade em vídeos dinâmicos do mundo real, ao mesmo tempo que falham em preservar a aparência do conteúdo e em manter um controle preciso da câmera para novas trajetórias desafiadoras. Construímos uma representação de nuvem de pontos ancorada em 4D com segmentação de pixels estáticos e reconstrução 4D para preservar explicitamente o conteúdo visualizado e fornecer sinais ricos da câmera, e treinamos com dados dinâmicos multivia reconstruídos para robustez contra artefatos da nuvem de pontos durante a inferência no mundo real. Nossos resultados demonstram uma consistência 4D, controle de câmera e qualidade visual melhorados em comparação com as linhas de base state-of-the-art sob uma variedade de vídeos e caminhos de câmera. Além disso, nosso método generaliza para aplicações do mundo real, como expansão de cena dinâmica e recomposição de cena 4D. Consulte nossa página do projeto para resultados, código e modelos: https://eyeline-labs.github.io/Vista4D.

English

We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D

Vista4D: Regravação de Vídeo com Nuvens de Pontos 4D

Vista4D: Video Reshooting with 4D Point Clouds

Resumo

Support