TrajLoom: Dichte zukünftige Trajektoriengenerierung aus Video

Zusammenfassung

Die Vorhersage zukünftiger Bewegung ist entscheidend für das Videoverständnis und die kontrollierbare Videogenerierung. Dichte Punkt-Trajektorien sind eine kompakte, ausdrucksstarke Bewegungsrepräsentation, doch die Modellierung ihrer zukünftigen Entwicklung aus beobachteten Videos bleibt eine Herausforderung. Wir schlagen ein Framework vor, das zukünftige Trajektorien und Sichtbarkeit aus vergangenen Trajektorien und dem Videokontext vorhersagt. Unsere Methode besteht aus drei Komponenten: (1) Grid-Anchor-Offset-Encoding, das positionsabhängige Verzerrungen reduziert, indem jeder Punkt als ein Offset von seinem Pixelzentrum-Anchor repräsentiert wird; (2) TrajLoom-VAE, das einen kompakten raumzeitlichen Latentraum für dichte Trajektorien mittels Masked Reconstruction und einem raumzeitlichen Konsistenz-Regularisierer lernt; und (3) TrajLoom-Flow, das zukünftige Trajektorien im Latentraum via Flow Matching generiert, mit Randhinweisen und On-Policy-K-Step-Feinabstimmung für stabiles Sampling. Wir führen zudem TrajLoomBench ein, einen einheitlichen Benchmark, der reale und synthetische Videos mit einem standardisierten Aufbau umfasst, der an Videogenerierungs-Benchmarks angelehnt ist. Im Vergleich zu State-of-the-Art-Methoden erweitert unser Ansatz den Vorhersagehorizont von 24 auf 81 Frames und verbessert gleichzeitig die Bewegungrealität und Stabilität über verschiedene Datensätze hinweg. Die vorhergesagten Trajektorien unterstützen direkt nachgelagerte Videogenerierungs- und Bearbeitungsaufgaben. Code, Model-Checkpoints und Datensätze sind verfügbar unter https://trajloom.github.io/.

English

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

TrajLoom: Dichte zukünftige Trajektoriengenerierung aus Video

TrajLoom: Dense Future Trajectory Generation from Video

Zusammenfassung

Support