MVTrack4Gen: multi-view punt tracking als geometrische supervisie voor 4D-videogeneratie

Samenvatting

Het synthetiseren van een nieuw-perspectiefvideo vanuit een monoculaire referentievideo langs een doelcameratraject vereist zowel geometrische consistentie als bewegingsgetrouwheid ten opzichte van de referentievideo. Bestaande methoden die gebaseerd zijn op expliciete 3D-representaties worden beperkt door de nauwkeurigheid van kant-en-klare reconstructiemodules, die vaak onnauwkeurige geometrie produceren voor dynamische objecten in monoculaire video's. Daarentegen kunnen methoden die uitsluitend op cameraconditionering zijn gebaseerd een hoge visuele kwaliteit bereiken, maar hebben ze vaak moeite om geometrische en bewegingsconsistentie te behouden. In dit werk introduceren we MVTrack4Gen (Multi-View point Tracking for Novel-View Generation), een bewegingsbewust trainingsraamwerk dat multi-view punttracking gebruikt als een aanvullend geometrisch en bewegingssupervisiesignaal voor nieuw-perspectiefvideo-diffusiemodellen die uitsluitend op cameraconditionering zijn gebaseerd. Onze belangrijkste bevinding is dat specifieke attentielagen sterke correspondentie-aanwijzingen coderen, waarbij querykenmerken aandacht besteden aan sleutelkenmerken op geometrisch corresponderende locaties over aanzichten en over tijd, en dat de misalignatie van deze correspondenties bewegingsinconsistentie veroorzaakt. Op basis van deze observatie leiden we deze kenmerken naar een hulp-multi-view trackingkop en trainen we gezamenlijk het diffusiemodel met een punttrackingdoelstelling. Door deze bewegingsbewuste correspondenties expliciet te versterken, verbetert MVTrack4Gen bestaande modellen om de beweging in het referentieaanzicht beter te volgen en cross-view geometrische consistentie te behouden. Over diverse benchmarks heen bereikt onze methode state-of-the-art geometrische consistentie en concurrerende cameranauwkeurigheid.

English

Synthesizing a novel-view video from a monocular reference video along a target camera trajectory requires both geometric consistency and motion fidelity with respect to the reference video. Existing methods based on explicit 3D representations are limited by the accuracy of off-the-shelf reconstruction modules, which often produce inaccurate geometry for dynamic objects in monocular videos. In contrast, camera-conditioning-only methods can achieve high visual quality but often struggle to preserve geometric and motion consistency. In this work, we introduce MVTrack4Gen (Multi-View point Tracking for Novel-View Generation), a motion-aware training framework that leverages multi-view point tracking as an additional geometric and motion supervision signal for camera-conditioning-only novel-view video diffusion models. Our key finding is that specific attention layers encode strong correspondence cues, where query features attend to key features at geometrically corresponding locations across views and over time, and the misalignment of these correspondences causes motion inconsistency. Based on this observation, we route these features into an auxiliary multi-view tracking head and jointly train the diffusion model with a point-tracking objective. By explicitly strengthening these motion-aware correspondences, MVTrack4Gen improves existing models to better follow the motion in the reference view and maintain cross-view geometric consistency. Across diverse benchmarks, our method achieves state-of-the-art geometric consistency and competitive camera accuracy.