Vista4D: Пересъёмка видео с использованием 4D облаков точек
Vista4D: Video Reshooting with 4D Point Clouds
April 23, 2026
Авторы: Kuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu
cs.AI
Аннотация
Мы представляем Vista4D — надежный и гибкий фреймворк для пересъемки видео, который связывает исходное видео и целевые камеры в 4D-облаке точек. В частности, для заданного входного видео наш метод заново синтезирует сцену с той же динамикой, но с другой траектории и точки зрения камеры. Существующие методы пересъемки видео часто сталкиваются с артефактами оценки глубины в динамических видео реального мира, а также не сохраняют внешний вид контента и не обеспечивают точного управления камерой для сложных новых траекторий. Мы строим 4D-обоснованное представление в виде облака точек с сегментацией статических пикселей и 4D-реконструкцией, чтобы явно сохранить наблюдаемое содержимое и обеспечить богатые сигналы камеры, и обучаем модель на реконструированных многовидовых динамических данных для устойчивости к артефактам облака точек при выводе в реальных условиях. Наши результаты демонстрируют улучшенную 4D-согласованность, управление камерой и визуальное качество по сравнению с современными базовыми методами на различных видео и путях камеры. Более того, наш метод обобщается на практические приложения, такие как расширение динамических сцен и рекомпозиция 4D-сцен. Результаты, код и модели доступны на странице проекта: https://eyeline-labs.github.io/Vista4D.
English
We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D