Track2View : Génération de vidéo contrôlée par caméra et cohérente en 4D via des pistes de points 3D appariées

Résumé

Le ré-rendu d'une vidéo existante depuis un nouveau point de vue de caméra nécessite que la sortie suive la trajectoire de caméra prescrite tout en préservant l'apparence et la dynamique de la scène originale à chaque image. Les méthodes existantes reposent sur des plongements de pose par image, des rendus de nuages de points bruités ou des correspondances implicites apprises, mais aucune ne fournit un lien explicite et temporellement continu entre les pixels source et cible. Nous proposons Track2View, qui conditionne un transformateur de diffusion vidéo sur des suivis de points 3D appariés : des trajectoires clairsemées de points de la scène projetées à la fois dans les vues de caméra source et cible. Ces suivis fournissent des correspondances spatio-temporelles explicites, temporellement continues par construction, encodant quel contenu doit apparaître où et quand. Au cœur de Track2View se trouve un conditionneur de suivi à double vue qui transfère le contexte visuel de la vue source à la vue cible via des opérations géométriques sans paramètre et une agrégation temporelle apprise, garantissant la généralisation à des trajectoires de caméra arbitraires sans mémoriser de mouvements spécifiques. Nous introduisons en outre un pipeline de curation de données qui extrait des correspondances de suivi un-à-un en exécutant un suiveur de points 3D sur des paires de vues multi-caméras concaténées temporellement. Sur un benchmark de 400 vidéos couvrant des scènes statiques et dynamiques, Track2View atteint des résultats de pointe en termes de qualité visuelle, de synchronisation des vues et de précision de la caméra, réduisant l'erreur de rotation de 30 à 65 % et l'erreur de translation de 61 à 72 % par rapport aux références principales. La page du projet est disponible à cette URL : https://qjizhi.github.io/track2view.

English

Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view