ChatPaper.aiChatPaper

TrajLoom: Geração Densa de Trajetórias Futuras a partir de Vídeo

TrajLoom: Dense Future Trajectory Generation from Video

March 23, 2026
Autores: Zewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
cs.AI

Resumo

A previsão de movimentos futuros é crucial para a compreensão de vídeos e a geração de vídeos controláveis. Trajetórias densas de pontos são uma representação de movimento compacta e expressiva, mas modelar sua evolução futura a partir de vídeos observados permanece um desafio. Propomos um framework que prevê trajetórias futuras e visibilidade a partir de trajetórias passadas e do contexto do vídeo. Nosso método possui três componentes: (1) Codificação de Deslocamento por Âncora de Grade, que reduz o viés dependente da localização representando cada ponto como um deslocamento em relação à sua âncora no centro do pixel; (2) TrajLoom-VAE, que aprende um espaço latente espaço-temporal compacto para trajetórias densas com reconstrução mascarada e um regularizador de consistência espaço-temporal; e (3) TrajLoom-Flow, que gera trajetórias futuras no espaço latente via *flow matching*, com pistas de contorno e *fine-tuning* K-step *on-policy* para amostragem estável. Também introduzimos o TrajLoomBench, um *benchmark* unificado abrangendo vídeos reais e sintéticos com uma configuração padronizada alinhada a *benchmarks* de geração de vídeo. Em comparação com métodos state-of-the-art, nossa abordagem estende o horizonte de previsão de 24 para 81 quadros, melhorando o realismo e a estabilidade do movimento em diversos conjuntos de dados. As trajetórias previstas suportam diretamente a geração e edição de vídeos subsequentes. Código, *checkpoints* de modelo e conjuntos de dados estão disponíveis em https://trajloom.github.io/.
English
Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.
PDF41March 26, 2026