TrajLoom : Génération dense de trajectoires futures à partir de vidéo

Résumé

La prédiction du mouvement futur est cruciale pour la compréhension vidéo et la génération de vidéos contrôlables. Les trajectoires de points denses constituent une représentation motrice compacte et expressive, mais modéliser leur évolution future à partir d'une vidéo observée reste un défi. Nous proposons un cadre qui prédit les trajectoires futures et leur visibilité à partir des trajectoires passées et du contexte vidéo. Notre méthode comporte trois composantes : (1) le Codage par Décalage de Grille-Ancre, qui réduit le biais dépendant de la localisation en représentant chaque point comme un décalage par rapport à son ancre au centre du pixel ; (2) le TrajLoom-VAE, qui apprend un espace latent spatiotemporel compact pour les trajectoires denses grâce à une reconstruction masquée et un régularisateur de cohérence spatiotemporelle ; et (3) le TrajLoom-Flow, qui génère les trajectoires futures dans l'espace latent via un appariement de flux, avec des indices de frontière et un réglage fin en K étapes sur politique pour un échantillonnage stable. Nous présentons également TrajLoomBench, un benchmark unifié couvrant des vidéos réelles et synthétiques avec une configuration standardisée alignée sur les benchmarks de génération vidéo. Comparée aux méthodes de l'état de l'art, notre approche étend l'horizon de prédiction de 24 à 81 images tout en améliorant le réalisme et la stabilité du mouvement sur divers ensembles de données. Les trajectoires prédites prennent directement en charge les tâches en aval de génération et d'édition vidéo. Le code, les points de contrôle des modèles et les jeux de données sont disponibles à l'adresse https://trajloom.github.io/.

English

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

TrajLoom : Génération dense de trajectoires futures à partir de vidéo

TrajLoom: Dense Future Trajectory Generation from Video

Résumé

Support