ChatPaper.aiChatPaper

트레이스 애니씽: 궤적 필드를 통한 4D 비디오 표현

Trace Anything: Representing Any Video in 4D via Trajectory Fields

October 15, 2025
저자: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI

초록

효과적인 시공간 표현은 비디오의 동역학을 모델링하고 이해하며 예측하는 데 있어 기본적인 요소입니다. 비디오의 기본 단위인 픽셀은 시간에 따라 연속적인 3차원 궤적을 그리며 동역학의 원시 요소로 작용합니다. 이 원리에 기반하여, 우리는 모든 비디오를 '궤적 필드(Trajectory Field)'로 표현하는 방법을 제안합니다. 이는 각 프레임의 모든 픽셀에 대해 시간에 따른 연속적인 3차원 궤적 함수를 할당하는 밀집 매핑입니다. 이러한 표현을 바탕으로, 우리는 단일 순방향 전달로 전체 궤적 필드를 예측하는 신경망인 'Trace Anything'을 소개합니다. 구체적으로, 각 프레임의 각 픽셀에 대해, 우리의 모델은 궤적(즉, B-스플라인)을 매개변수화하는 일련의 제어점을 예측하여 임의의 쿼리 시간 인스턴트에서의 3차원 위치를 제공합니다. 우리는 대규모 4D 데이터를 포함한 데이터를 사용하여 Trace Anything 모델을 훈련시켰으며, 실험 결과는 다음과 같습니다: (i) Trace Anything은 우리의 새로운 궤적 필드 추정 벤치마크에서 최첨단 성능을 달성하고 기존의 점 추적 벤치마크에서도 경쟁력 있는 성능을 보입니다; (ii) 반복적인 최적화나 보조 추정기가 필요 없는 단일 전달 패러다임 덕분에 상당한 효율성 향상을 제공합니다; (iii) 목표 조건 조작, 운동 예측, 시공간 융합과 같은 새로운 능력을 보여줍니다. 프로젝트 페이지: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling, understanding, and predicting dynamics in videos. The atomic unit of a video, the pixel, traces a continuous 3D trajectory over time, serving as the primitive element of dynamics. Based on this principle, we propose representing any video as a Trajectory Field: a dense mapping that assigns a continuous 3D trajectory function of time to each pixel in every frame. With this representation, we introduce Trace Anything, a neural network that predicts the entire trajectory field in a single feed-forward pass. Specifically, for each pixel in each frame, our model predicts a set of control points that parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at arbitrary query time instants. We trained the Trace Anything model on large-scale 4D data, including data from our new platform, and our experiments demonstrate that: (i) Trace Anything achieves state-of-the-art performance on our new benchmark for trajectory field estimation and performs competitively on established point-tracking benchmarks; (ii) it offers significant efficiency gains thanks to its one-pass paradigm, without requiring iterative optimization or auxiliary estimators; and (iii) it exhibits emergent abilities, including goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion. Project page: https://trace-anything.github.io/.
PDF302October 16, 2025