Trace Anything: Представление любого видео в 4D через поля траекторий
Trace Anything: Representing Any Video in 4D via Trajectory Fields
October 15, 2025
Авторы: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI
Аннотация
Эффективное пространственно-временное представление является основополагающим для моделирования, понимания и прогнозирования динамики в видео. Атомарная единица видео, пиксель, описывает непрерывную 3D траекторию во времени, выступая в качестве примитивного элемента динамики. Основываясь на этом принципе, мы предлагаем представлять любое видео как Поле Траекторий: плотное отображение, которое присваивает каждому пикселю в каждом кадре непрерывную 3D функцию траектории от времени. С этим представлением мы представляем Trace Anything — нейронную сеть, которая предсказывает всё поле траекторий за один прямой проход. В частности, для каждого пикселя в каждом кадре наша модель предсказывает набор контрольных точек, параметризующих траекторию (например, B-сплайн), что позволяет определить его 3D позицию в произвольные моменты времени. Мы обучили модель Trace Anything на крупномасштабных 4D данных, включая данные с нашей новой платформы, и наши эксперименты демонстрируют, что: (i) Trace Anything достигает наилучших результатов на нашем новом бенчмарке для оценки поля траекторий и конкурентоспособно показывает себя на устоявшихся бенчмарках для отслеживания точек; (ii) она обеспечивает значительный прирост эффективности благодаря своей одношаговой парадигме, не требуя итеративной оптимизации или вспомогательных оценщиков; и (iii) она демонстрирует возникающие способности, включая манипуляции с условиями цели, прогнозирование движения и пространственно-временное слияние. Страница проекта: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over time, serving as the
primitive element of dynamics. Based on this principle, we propose representing
any video as a Trajectory Field: a dense mapping that assigns a continuous 3D
trajectory function of time to each pixel in every frame. With this
representation, we introduce Trace Anything, a neural network that predicts the
entire trajectory field in a single feed-forward pass. Specifically, for each
pixel in each frame, our model predicts a set of control points that
parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at
arbitrary query time instants. We trained the Trace Anything model on
large-scale 4D data, including data from our new platform, and our experiments
demonstrate that: (i) Trace Anything achieves state-of-the-art performance on
our new benchmark for trajectory field estimation and performs competitively on
established point-tracking benchmarks; (ii) it offers significant efficiency
gains thanks to its one-pass paradigm, without requiring iterative optimization
or auxiliary estimators; and (iii) it exhibits emergent abilities, including
goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion.
Project page: https://trace-anything.github.io/.