TrackCraft3R: Reaproveitamento de Transformadores de Difusão de Vídeo para Rastreamento 3D Denso

Resumo

O rastreamento 3D denso a partir de vídeo monocular é fundamental para a compreensão de cenas dinâmicas. Embora modelos fundamentais 3D recentes forneçam geometria confiável por quadro, recuperar o movimento de objetos nessa geometria continua sendo desafiador e se beneficia de fortes priores de movimento aprendidos a partir de vídeos do mundo real. Os rastreadores 3D existentes seguem paradigmas iterativos treinados do zero em dados sintéticos ou ajustam modelos de reconstrução 3D aprendidos a partir de imagens estáticas multivisão, ambos carecendo de priores de movimento do mundo real. Transformadores de difusão de vídeo pré-treinados (video DiTs) oferecem priores espaço-temporais ricos provenientes de vídeos em escala da internet, tornando-os uma base promissora para o rastreamento 3D. No entanto, sua formulação ancorada no quadro, que gera o conteúdo de cada quadro, é fundamentalmente incompatível com o rastreamento 3D denso ancorado na referência, que deve seguir os mesmos pontos físicos a partir de um quadro de referência ao longo do tempo. Apresentamos TrackCraft3R, o primeiro método a reaproveitar um video DiT como um rastreador 3D denso alimentado diretamente. Dado um vídeo monocular e seu mapa de pontos de reconstrução ancorado no quadro, o TrackCraft3R prediz um mapa de pontos de rastreamento ancorado na referência que segue cada pixel do primeiro quadro ao longo do tempo em uma única passagem direta, juntamente com sua visibilidade. Alcançamos isso por meio de dois projetos: (i) uma representação latente dupla que usa latentes de geometria por quadro e latentes de rastreamento ancorados na referência como consultas densas, e (ii) alinhamento RoPE temporal, que especifica o carimbo de tempo alvo de cada latente de rastreamento. Juntos, esses projetos convertem o paradigma generativo por quadro dos video DiTs em uma formulação de rastreamento ancorada na referência com ajuste fino LoRA. O TrackCraft3R alcança desempenho de estado da arte em benchmarks padrão de rastreamento 3D esparso e denso, enquanto é executado 1,3x mais rápido e utiliza 4,6x menos pico de memória do que o método anterior mais forte. Demonstramos ainda robustez a grandes movimentos e vídeos longos.

English

Dense 3D tracking from monocular video is fundamental to dynamic scene understanding. While recent 3D foundation models provide reliable per-frame geometry, recovering object motion in this geometry remains challenging and benefits from strong motion priors learned from real-world videos. Existing 3D trackers either follow iterative paradigms trained from scratch on synthetic data or fine-tune 3D reconstruction models learned from static multi-view images, both lacking real-world motion priors. Pre-trained video diffusion transformers (video DiTs) offer rich spatio-temporal priors from internet-scale videos, making them a promising foundation for 3D tracking. However, their frame-anchored formulation, which generates each frame's content, is fundamentally mismatched with reference-anchored dense 3D tracking, which must follow the same physical points from a reference frame across time. We present TrackCraft3R, the first method to repurpose a video DiT as a feed-forward dense 3D tracker. Given a monocular video and its frame-anchored reconstruction pointmap, TrackCraft3R predicts a reference-anchored tracking pointmap that follows every pixel of the first frame across time in a single forward pass, along with its visibility. We achieve this through two designs: (i) a dual-latent representation that uses per-frame geometry latents and reference-anchored track latents as dense queries, and (ii) temporal RoPE alignment, which specifies the target timestamp of each track latent. Together, these designs convert the per-frame generative paradigm of video DiTs into a reference-anchored tracking formulation with LoRA fine-tuning. TrackCraft3R achieves state-of-the-art performance on standard sparse and dense 3D tracking benchmarks, while running 1.3x faster and using 4.6x less peak memory than the strongest prior method. We further demonstrate robustness to large motions and long videos.