TrajLoom: Generazione Densa di Traiettorie Future da Video

Abstract

La previsione del movimento futuro è cruciale per la comprensione video e la generazione di video controllabile. Le traiettorie dense di punti sono una rappresentazione del movimento compatta ed espressiva, ma modellarne l'evoluzione futura a partire da un video osservato rimane una sfida. Proponiamo un framework che predice le traiettorie future e la visibilità a partire dalle traiettorie passate e dal contesto video. Il nostro metodo ha tre componenti: (1) la Codifica a Offset con Griglia e Ancora, che riduce il bias dipendente dalla posizione rappresentando ogni punto come uno scostamento dalla sua ancora al centro del pixel; (2) TrajLoom-VAE, che apprende uno spazio latente spaziotemporale compatto per le traiettorie dense mediante ricostruzione mascherata e un regolarizzatore di consistenza spaziotemporale; e (3) TrajLoom-Flow, che genera le traiettorie future nello spazio latente tramite flow matching, con segnali di confine e affinamento K-step on-policy per un campionamento stabile. Introduciamo inoltre TrajLoomBench, un benchmark unificato che spazia su video reali e sintetici con una configurazione standardizzata allineata ai benchmark di generazione video. Rispetto ai metodi allo stato dell'arte, il nostro approccio estende l'orizzonte di previsione da 24 a 81 fotogrammi, migliorando al contempo il realismo e la stabilità del movimento attraverso diversi dataset. Le traiettorie predette supportano direttamente la generazione e l'editing video a valle. Codice, checkpoint del modello e dataset sono disponibili su https://trajloom.github.io/.

English

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

TrajLoom: Generazione Densa di Traiettorie Future da Video

TrajLoom: Dense Future Trajectory Generation from Video

Abstract

Support