ChatPaper.aiChatPaper

TrajLoom: 비디오 기반 고밀도 미래 궤적 생성

TrajLoom: Dense Future Trajectory Generation from Video

March 23, 2026
저자: Zewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
cs.AI

초록

미래 동작 예측은 비디오 이해 및 제어 가능한 비디오 생성에서 매우 중요합니다. 조밀한 점 궤적은 간결하면서도 표현력이 풍부한 동작 표현 방식이지만, 관찰된 비디오로부터 이들의 미래 변화를 모델링하는 것은 여전히 어려운 과제입니다. 우리는 과거 궤적과 비디오 맥락으로부터 미래 궤적과 가시성을 예측하는 프레임워크를 제안합니다. 우리의 방법은 세 가지 구성 요소로 이루어집니다: (1) 각 점을 픽셀 중심 앵커로부터의 오프셋으로 표현하여 위치 의존적 편향을 줄이는 그리드-앵커 오프셋 인코딩, (2) 마스크 복원 및 시공간 일관성 정규화기를 통해 조밀 궤적을 위한 간결한 시공간 잠재 공간을 학습하는 TrajLoom-VAE, (3) 경계 신호와 안정적 샘플링을 위한 온-정책 K-단계 미세 조정을 통해 잠재 공간에서 미래 궤적을 생성하는 TrajLoom-Flow. 또한 우리는 비디오 생성 벤치마크와 표준화된 설정을 공유하는 실제 및 합성 비디오를 아우르는 통합 벤치마크인 TrajLoomBench를 소개합니다. 최첨단 방법들과 비교했을 때, 우리의 접근법은 예측 범위를 24프레임에서 81프레임으로 확장하면서 다양한 데이터셋에서 동작 현실감과 안정성을 향상시켰습니다. 예측된 궤적은 다운스트림 비디오 생성 및 편집을 직접 지원합니다. 코드, 모델 체크포인트 및 데이터셋은 https://trajloom.github.io/에서 이용 가능합니다.
English
Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.
PDF41March 26, 2026