Trace Anything: 軌跡フィールドによる任意のビデオの4次元表現
Trace Anything: Representing Any Video in 4D via Trajectory Fields
October 15, 2025
著者: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI
要旨
効果的な時空間表現は、ビデオのダイナミクスをモデル化し、理解し、予測するための基本である。ビデオの最小単位であるピクセルは、時間とともに連続的な3次元軌跡を描き、ダイナミクスの原始的な要素として機能する。この原理に基づき、我々は任意のビデオを「軌跡場(Trajectory Field)」として表現することを提案する。これは、各フレームの各ピクセルに時間の連続的な3次元軌跡関数を割り当てる高密度マッピングである。この表現を用いて、我々は「Trace Anything」というニューラルネットワークを導入する。このネットワークは、単一の順伝播パスで全体の軌跡場を予測する。具体的には、各フレームの各ピクセルに対して、我々のモデルは軌跡(すなわちBスプライン)をパラメータ化する制御点のセットを予測し、任意のクエリ時間における3次元位置を導出する。我々は、Trace Anythingモデルを大規模な4次元データ(我々の新たなプラットフォームからのデータを含む)で訓練し、以下の結果を示す実験を行った:(i) Trace Anythingは、我々の新たな軌跡場推定ベンチマークにおいて最先端の性能を達成し、既存のポイント追跡ベンチマークでも競争力のある性能を示す;(ii) 反復最適化や補助推定器を必要としないワンパスパラダイムにより、大幅な効率向上を実現する;(iii) 目標条件付き操作、運動予測、時空間融合などの創発的な能力を示す。プロジェクトページ: https://trace-anything.github.io/。
English
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over time, serving as the
primitive element of dynamics. Based on this principle, we propose representing
any video as a Trajectory Field: a dense mapping that assigns a continuous 3D
trajectory function of time to each pixel in every frame. With this
representation, we introduce Trace Anything, a neural network that predicts the
entire trajectory field in a single feed-forward pass. Specifically, for each
pixel in each frame, our model predicts a set of control points that
parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at
arbitrary query time instants. We trained the Trace Anything model on
large-scale 4D data, including data from our new platform, and our experiments
demonstrate that: (i) Trace Anything achieves state-of-the-art performance on
our new benchmark for trajectory field estimation and performs competitively on
established point-tracking benchmarks; (ii) it offers significant efficiency
gains thanks to its one-pass paradigm, without requiring iterative optimization
or auxiliary estimators; and (iii) it exhibits emergent abilities, including
goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion.
Project page: https://trace-anything.github.io/.