TrajLoom: Генерация плотных будущих траекторий по видеоданным
TrajLoom: Dense Future Trajectory Generation from Video
March 23, 2026
Авторы: Zewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
cs.AI
Аннотация
Предсказание будущего движения является ключевой задачей в понимании видео и управляемой генерации видеоконтента. Плотные точечные траектории представляют собой компактное и выразительное представление движения, однако моделирование их будущей эволюции на основе наблюдаемого видео остается сложной проблемой. Мы предлагаем фреймворк, который предсказывает будущие траектории и видимость точек на основе прошлых траекторий и контекста видео. Наш метод состоит из трех компонентов: (1) Кодирование смещений от сетки-якоря, которое уменьшает зависимую от местоположения погрешность, представляя каждую точку как смещение от ее якоря в центре пикселя; (2) TrajLoom-VAE, который изучает компактное пространственно-временное латентное пространство для плотных траекторий с использованием маскированного восстановления и регуляризатора пространственно-временной согласованности; и (3) TrajLoom-Flow, который генерирует будущие траектории в латентном пространстве с помощью сопоставления потоков, используя граничные сигналы и тонкую настройку за K шагов в режиме политики для стабильной выборки. Мы также представляем TrajLoomBench — унифицированный бенчмарк, охватыющий реальные и синтетические видео со стандартизированной настройкой, согласованной с бенчмарками генерации видео. По сравнению с современными методами наш подход увеличивает горизонт предсказания с 24 до 81 кадра, одновременно улучшая реалистичность и стабильность движения на различных наборах данных. Предсказанные траектории напрямую поддерживают последующую генерацию и редактирование видео. Код, веса моделей и наборы данных доступны по адресу https://trajloom.github.io/.
English
Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.