Trace Anything: Darstellung beliebiger Videos in 4D durch Trajektorienfelder
Trace Anything: Representing Any Video in 4D via Trajectory Fields
October 15, 2025
papers.authors: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI
papers.abstract
Eine effektive raumzeitliche Darstellung ist grundlegend für die Modellierung, das Verständnis und die Vorhersage von Dynamiken in Videos. Die atomare Einheit eines Videos, das Pixel, verfolgt eine kontinuierliche 3D-Trajektorie über die Zeit und dient als primitives Element der Dynamik. Basierend auf diesem Prinzip schlagen wir vor, jedes Video als ein Trajektorienfeld darzustellen: eine dichte Abbildung, die jedem Pixel in jedem Frame eine kontinuierliche 3D-Trajektorienfunktion der Zeit zuordnet. Mit dieser Darstellung führen wir Trace Anything ein, ein neuronales Netzwerk, das das gesamte Trajektorienfeld in einem einzigen Vorwärtsdurchlauf vorhersagt. Konkret sagt unser Modell für jedes Pixel in jedem Frame eine Menge von Kontrollpunkten voraus, die eine Trajektorie (d. h. eine B-Spline) parametrisieren und dessen 3D-Position zu beliebigen Abfragezeitpunkten liefern. Wir haben das Trace-Anything-Modell auf groß angelegten 4D-Daten trainiert, einschließlich Daten von unserer neuen Plattform, und unsere Experimente zeigen, dass: (i) Trace Anything state-of-the-art Leistung auf unserem neuen Benchmark für die Trajektorienfeldschätzung erreicht und auf etablierten Punktverfolgungs-Benchmarks wettbewerbsfähig abschneidet; (ii) es erhebliche Effizienzgewinne dank seines Ein-Durchlauf-Paradigmas bietet, ohne iterative Optimierung oder zusätzliche Schätzer zu erfordern; und (iii) es emergente Fähigkeiten aufweist, einschließlich zielgerichteter Manipulation, Bewegungsvorhersage und raumzeitlicher Fusion. Projektseite: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over time, serving as the
primitive element of dynamics. Based on this principle, we propose representing
any video as a Trajectory Field: a dense mapping that assigns a continuous 3D
trajectory function of time to each pixel in every frame. With this
representation, we introduce Trace Anything, a neural network that predicts the
entire trajectory field in a single feed-forward pass. Specifically, for each
pixel in each frame, our model predicts a set of control points that
parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at
arbitrary query time instants. We trained the Trace Anything model on
large-scale 4D data, including data from our new platform, and our experiments
demonstrate that: (i) Trace Anything achieves state-of-the-art performance on
our new benchmark for trajectory field estimation and performs competitively on
established point-tracking benchmarks; (ii) it offers significant efficiency
gains thanks to its one-pass paradigm, without requiring iterative optimization
or auxiliary estimators; and (iii) it exhibits emergent abilities, including
goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion.
Project page: https://trace-anything.github.io/.