TrajLoom: Generación Densa de Trayectorias Futuras a partir de Video

Resumen

La predicción de movimiento futuro es crucial para la comprensión de vídeo y la generación de vídeo controlable. Las trayectorias de puntos densas son una representación de movimiento compacta y expresiva, pero modelar su evolución futura a partir de vídeo observado sigue siendo un desafío. Proponemos un marco que predice trayectorias futuras y su visibilidad a partir de trayectorias pasadas y contexto de vídeo. Nuestro método tiene tres componentes: (1) Codificación de Desplazamiento de Anclaje en Rejilla, que reduce el sesgo dependiente de la ubicación representando cada punto como un desplazamiento desde su anclaje en el centro del píxel; (2) TrajLoom-VAE, que aprende un espacio latente espacio-temporal compacto para trayectorias densas mediante reconstrucción enmascarada y un regularizador de consistencia espacio-temporal; y (3) TrajLoom-Flow, que genera trayectorias futuras en el espacio latente mediante *flow matching*, con señales de borde y ajuste fino *on-policy* de K pasos para un muestreo estable. También presentamos TrajLoomBench, un benchmark unificado que abarca vídeos reales y sintéticos con una configuración estandarizada alineada con los benchmarks de generación de vídeo. En comparación con los métodos state-of-the-art, nuestro enfoque extiende el horizonte de predicción de 24 a 81 fotogramas, mejorando además el realismo y la estabilidad del movimiento en diversos conjuntos de datos. Las trayectorias predichas admiten directamente la generación y edición de vídeo posteriores. El código, los puntos de control del modelo y los conjuntos de datos están disponibles en https://trajloom.github.io/.

English

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

TrajLoom: Generación Densa de Trayectorias Futuras a partir de Video

TrajLoom: Dense Future Trajectory Generation from Video

Resumen

Support