Track2View: 4D-согласованная генерация видео с управлением камерой на основе парных 3D-точечных треков

Аннотация

Повторная визуализация существующего видео с новой точки обзора камеры требует, чтобы выходной результат следовал заданной траектории камеры, сохраняя при этом внешний вид и динамику исходной сцены в каждом кадре. Существующие методы опираются на покадровые вложения позы, зашумленные рендеринги облаков точек или неявные изученные соответствия, ни один из которых не обеспечивает явной, непрерывной во времени связи между пикселями источника и цели. Мы предлагаем Track2View, который подает на вход диффузионного трансформера видео парные трехмерные треки точек: разреженные траектории точек сцены, спроецированные как в исходное, так и в целевое изображения камеры. Эти треки обеспечивают явные пространственно-временные соответствия, которые по построению непрерывны во времени, кодируя, какой контент должен появиться где и когда. В основе Track2View лежит кондиционер треков с двойным обзором, который переносит визуальный контекст из исходного вида в целевой с помощью безпараметрических геометрических операций и изученной временной агрегации, обеспечивая обобщение на произвольные траектории камеры без запоминания конкретных движений. Мы также представляем конвейер подготовки данных, который извлекает взаимно однозначные соответствия треков путем запуска трехмерного трекера точек на временно конкатенированных парах многокамерных видов. На эталонном наборе из 400 видео, охватывающих статические и динамические сцены, Track2View достигает современных результатов по качеству изображения, синхронизации видов и точности камеры, уменьшая ошибку поворота на 30–65% и ошибку переноса на 61–72% по сравнению с ведущими базовыми методами. Страница проекта доступна по следующему URL: https://qjizhi.github.io/track2view

English

Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view