TrajLoom: Dichte Toekomstige Trajectoriegeneratie vanuit Video

Samenvatting

Het voorspellen van toekomstige beweging is cruciaal voor videobegrip en controleerbare videogeneratie. Dichte puntentrajecten zijn een compacte, expressieve bewegingsrepresentatie, maar het modelleren van hun toekomstige evolutie op basis van waargenomen video blijft een uitdaging. Wij stellen een raamwerk voor dat toekomstige trajecten en zichtbaarheid voorspelt uit eerdere trajecten en videocontext. Onze methode heeft drie componenten: (1) Grid-Anchor Offset Encoding, dat locatieafhankelijke bias vermindert door elk punt weer te geven als een offset van zijn pixelcentrum-anker; (2) TrajLoom-VAE, dat een compacte ruimtelijk-temporele latente ruimte aanleert voor dichte trajecten met gemaskeerde reconstructie en een ruimtelijk-temporele consistentieregulariseerder; en (3) TrajLoom-Flow, dat toekomstige trajecten genereert in de latente ruimte via flow matching, met grensaanduidingen en on-policy K-staps finetuning voor stabiele sampling. We introduceren ook TrajLoomBench, een uniforme benchmark die realistische en synthetische video's omvat met een gestandaardiseerde opzet die is afgestemd op videogeneratiebenchmarks. Vergeleken met state-of-the-art methodes verlengt onze aanpak de voorspellingshorizon van 24 naar 81 frames, terwijl tegelijkertijd de bewegingsrealiteit en stabiliteit over datasets wordt verbeterd. De voorspelde trajecten ondersteunen direct downstream videogeneratie en -bewerking. Code, modelcheckpoints en datasets zijn beschikbaar op https://trajloom.github.io/.

English

Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.

TrajLoom: Dichte Toekomstige Trajectoriegeneratie vanuit Video

TrajLoom: Dense Future Trajectory Generation from Video

Samenvatting

Support