TrackCraft3R: Herbestemming van Video Diffusie Transformers voor Dichte 3D-tracking

Samenvatting

Dichte 3D-tracking op basis van monovideo is essentieel voor het begrijpen van dynamische scènes. Hoewel recente 3D-funderingsmodellen betrouwbare geometrie per frame leveren, blijft het reconstrueren van objectbeweging in deze geometrie uitdagend en profiteert het van sterke bewegingspriors die zijn geleerd uit realistische video's. Bestaande 3D-trackers volgen ofwel iteratieve paradigma's die vanaf nul zijn getraind op synthetische data, ofwel finetunen 3D-reconstructiemodellen die zijn geleerd uit statische multi-view beelden—beide missen realistische bewegingspriors. Voorgetrainde video-diffusietransformers (video-DiT's) bieden rijke spatiotemporele priors uit video's op internetschaal, wat hen tot een veelbelovende basis maakt voor 3D-tracking. Hun frame-verankerde formulering, die de inhoud van elk frame genereert, is echter fundamenteel niet in overeenstemming met referentie-verankerde dichte 3D-tracking, die dezelfde fysieke punten vanuit een referentieframe door de tijd heen moet volgen. We presenteren TrackCraft3R, de eerste methode die een video-DiT hergebruikt als een feed-forward dichte 3D-tracker. Gegeven een monovideo en de frame-verankerde reconstructiepuntkaart, voorspelt TrackCraft3R in één enkele forward-pass een referentie-verankerde trackingpuntkaart die elke pixel van het eerste frame door de tijd heen volgt, samen met de zichtbaarheid ervan. We bereiken dit via twee ontwerpen: (i) een duale latente representatie die per-frame geometrie-latenten en referentie-verankerde track-latenten als dichte queries gebruikt, en (ii) temporele RoPE-uitlijning, die het doel-tijdstip van elke track-latent specificeert. Samen zetten deze ontwerpen het per-frame generatieve paradigma van video-DiT's om in een referentie-verankerde trackingformulering met LoRA-finetuning. TrackCraft3R behaalt state-of-the-art prestaties op standaard benchmarks voor schaarse en dichte 3D-tracking, terwijl het 1,3× sneller werkt en 4,6× minder piekgeheugen gebruikt dan de sterkste eerdere methode. Verder tonen we robuustheid aan voor grote bewegingen en lange video's.

English

Dense 3D tracking from monocular video is fundamental to dynamic scene understanding. While recent 3D foundation models provide reliable per-frame geometry, recovering object motion in this geometry remains challenging and benefits from strong motion priors learned from real-world videos. Existing 3D trackers either follow iterative paradigms trained from scratch on synthetic data or fine-tune 3D reconstruction models learned from static multi-view images, both lacking real-world motion priors. Pre-trained video diffusion transformers (video DiTs) offer rich spatio-temporal priors from internet-scale videos, making them a promising foundation for 3D tracking. However, their frame-anchored formulation, which generates each frame's content, is fundamentally mismatched with reference-anchored dense 3D tracking, which must follow the same physical points from a reference frame across time. We present TrackCraft3R, the first method to repurpose a video DiT as a feed-forward dense 3D tracker. Given a monocular video and its frame-anchored reconstruction pointmap, TrackCraft3R predicts a reference-anchored tracking pointmap that follows every pixel of the first frame across time in a single forward pass, along with its visibility. We achieve this through two designs: (i) a dual-latent representation that uses per-frame geometry latents and reference-anchored track latents as dense queries, and (ii) temporal RoPE alignment, which specifies the target timestamp of each track latent. Together, these designs convert the per-frame generative paradigm of video DiTs into a reference-anchored tracking formulation with LoRA fine-tuning. TrackCraft3R achieves state-of-the-art performance on standard sparse and dense 3D tracking benchmarks, while running 1.3x faster and using 4.6x less peak memory than the strongest prior method. We further demonstrate robustness to large motions and long videos.