Trace Anything: Elke video weergeven in 4D via trajectvelden
Trace Anything: Representing Any Video in 4D via Trajectory Fields
October 15, 2025
Auteurs: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI
Samenvatting
Effectieve spatio-temporele representatie is fundamenteel voor het modelleren, begrijpen en voorspellen van dynamiek in video's. De basiseenheid van een video, de pixel, volgt een continue 3D-trajectorie in de tijd en fungeert als het primitieve element van dynamiek. Op basis van dit principe stellen we voor om elke video te representeren als een Trajectory Field: een dichte mapping die aan elke pixel in elk frame een continue 3D-trajectoriefunctie van de tijd toekent. Met deze representatie introduceren we Trace Anything, een neuraal netwerk dat het volledige trajectorieveld in één enkele feed-forward pass voorspelt. Specifiek voorspelt ons model voor elke pixel in elk frame een set controlepunten die een trajectorie parametriseren (bijvoorbeeld een B-spline), wat de 3D-positie oplevert op willekeurige tijdstippen. We hebben het Trace Anything-model getraind op grootschalige 4D-data, inclusief data van ons nieuwe platform, en onze experimenten tonen aan dat: (i) Trace Anything state-of-the-art prestaties behaalt op onze nieuwe benchmark voor trajectorieveldestimatie en competitief presteert op gevestigde punt-tracking benchmarks; (ii) het aanzienlijke efficiëntiewinsten biedt dankzij zijn one-pass paradigma, zonder iteratieve optimalisatie of aanvullende schatters te vereisen; en (iii) het emergente vaardigheden vertoont, waaronder doelgerichte manipulatie, bewegingvoorspelling en spatio-temporele fusie. Projectpagina: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over time, serving as the
primitive element of dynamics. Based on this principle, we propose representing
any video as a Trajectory Field: a dense mapping that assigns a continuous 3D
trajectory function of time to each pixel in every frame. With this
representation, we introduce Trace Anything, a neural network that predicts the
entire trajectory field in a single feed-forward pass. Specifically, for each
pixel in each frame, our model predicts a set of control points that
parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at
arbitrary query time instants. We trained the Trace Anything model on
large-scale 4D data, including data from our new platform, and our experiments
demonstrate that: (i) Trace Anything achieves state-of-the-art performance on
our new benchmark for trajectory field estimation and performs competitively on
established point-tracking benchmarks; (ii) it offers significant efficiency
gains thanks to its one-pass paradigm, without requiring iterative optimization
or auxiliary estimators; and (iii) it exhibits emergent abilities, including
goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion.
Project page: https://trace-anything.github.io/.