Track2View: Generación de video controlado por cámara y consistente en 4D mediante trayectorias de puntos 3D emparejados

Resumen

Renderizar nuevamente un video existente desde un ángulo de cámara novedoso requiere que la salida siga la trayectoria prescrita de la cámara, preservando la apariencia y dinámica de la escena original en cada fotograma. Los métodos existentes dependen de incrustaciones de pose por fotograma, representaciones de nubes de puntos ruidosas o correspondencias implícitas aprendidas, ninguno de los cuales proporciona un vínculo explícito y temporalmente continuo entre los píxeles de origen y destino. Proponemos Track2View, que condiciona un transformador de difusión de video en pares de trayectorias de puntos 3D: trayectorias dispersas de puntos de la escena proyectadas tanto en las vistas de cámara de origen como de destino. Estas trayectorias proporcionan correspondencias espaciotemporales explícitas que son temporalmente continuas por construcción, codificando qué contenido debe aparecer dónde y cuándo. En el núcleo de Track2View se encuentra un acondicionador de trayectorias de doble vista que transfiere el contexto visual de la vista de origen a la de destino mediante operaciones geométricas sin parámetros y agregación temporal aprendida, asegurando la generalización a trayectorias de cámara arbitrarias sin memorizar movimientos específicos. Además, introducimos un flujo de curado de datos que extrae correspondencias de trayectorias uno a uno ejecutando un rastreador de puntos 3D en pares de vistas de múltiples cámaras concatenadas temporalmente. En un banco de pruebas de 400 videos que abarca escenas estáticas y dinámicas, Track2View logra resultados de última generación en calidad visual, sincronización de vistas y precisión de cámara, reduciendo el error de rotación entre un 30-65 % y el error de traslación entre un 61-72 % en relación con las líneas base líderes. La página del proyecto está disponible en este enlace URL: https://qjizhi.github.io/track2view

English

Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view