Track2View: 4D-konsistente kameragesteuerte Videogenerierung mittels gepaarter 3D-Punktspuren

Zusammenfassung

Das Nachrendern eines vorhandenen Videos aus einer neuartigen Kameraperspektive erfordert, dass die Ausgabe der vorgegebenen Kameratrajektorie folgt, während das Erscheinungsbild und die Dynamik der Originalszene in jedem Frame erhalten bleiben. Bestehende Methoden stützen sich auf Frame-bezogene Poseneinbettungen, verrauschte Punktwolken-Renderings oder implizit gelernte Korrespondenzen, von denen keine eine explizite, zeitlich kontinuierliche Verknüpfung zwischen Quell- und Zielpixeln herstellt. Wir schlagen Track2View vor, das einen Videodiffusionstransformer auf gepaarte 3D-Punktspuren konditioniert: dünn besetzte Trajektorien von Szenenpunkten, die sowohl in die Quell- als auch in die Zielkameraperspektive projiziert werden. Diese Spuren liefern explizite raumzeitliche Korrespondenzen, die per Konstruktion zeitlich kontinuierlich sind und kodieren, welcher Inhalt wo und wann erscheinen soll. Kernstück von Track2View ist ein Dual-View-Track-Conditioner, der visuellen Kontext von der Quell- zur Zielansicht durch parameterfreie geometrische Operationen und gelernte zeitliche Aggregation überträgt und so die Verallgemeinerung auf beliebige Kameratrajektorien ohne das Einprägen spezifischer Bewegungen sicherstellt. Wir führen ferner eine Datenaufbereitungspipeline ein, die Eins-zu-Eins-Spurkorrespondenzen extrahiert, indem sie einen 3D-Punktverfolger auf zeitlich verketteten Multikamera-Ansichtspaaren ausführt. Auf einem 400-Videos umfassenden Benchmark mit statischen und dynamischen Szenen erzielt Track2View Spitzenergebnisse in Bezug auf visuelle Qualität, Ansichtssynchronisation und Kameragenauigkeit, wobei der Rotationsfehler um 30–65% und der Translationsfehler um 61–72% gegenüber führenden Basislinien reduziert wird. Eine Projektseite ist verfügbar unter dieser https URL: https://qjizhi.github.io/track2view

English

Re-rendering an existing video from a novel camera viewpoint requires the output to follow the prescribed camera trajectory while preserving the appearance and dynamics of the original scene across every frame. Existing methods rely on per-frame pose embeddings, noisy point-cloud renderings, or implicit learned correspondences, none of which provides an explicit, temporally continuous link between source and target pixels. We propose Track2View, which conditions a video diffusion transformer on paired 3D point tracks: sparse trajectories of scene points projected into both the source and target camera views. These tracks provide explicit spatiotemporal correspondences that are temporally continuous by construction, encoding what content should appear where and when. At the core of Track2View is a dual-view track conditioner that transfers visual context from source to target view through parameter-free geometric operations and learned temporal aggregation, ensuring generalization to arbitrary camera trajectories without memorizing specific motions. We further introduce a data curation pipeline that extracts one-to-one track correspondences by running a 3D point tracker on temporally concatenated multi-camera view pairs. On a 400-video benchmark spanning static and dynamic scenes, Track2View achieves state-of-the-art results across visual quality, view synchronization, and camera accuracy, reducing rotation error by 30-65% and translation error by 61-72% relative to leading baselines. Project page is available at this https URL: https://qjizhi.github.io/track2view