Trace Anything: Representando Qualquer Vídeo em 4D através de Campos de Trajetória
Trace Anything: Representing Any Video in 4D via Trajectory Fields
October 15, 2025
Autores: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI
Resumo
A representação espaço-temporal eficaz é fundamental para modelar, compreender e prever a dinâmica em vídeos. A unidade atômica de um vídeo, o pixel, traça uma trajetória contínua 3D ao longo do tempo, servindo como o elemento primitivo da dinâmica. Com base nesse princípio, propomos representar qualquer vídeo como um Campo de Trajetória: um mapeamento denso que atribui uma função de trajetória contínua 3D ao tempo para cada pixel em cada quadro. Com essa representação, introduzimos o Trace Anything, uma rede neural que prevê todo o campo de trajetória em uma única passagem direta. Especificamente, para cada pixel em cada quadro, nosso modelo prevê um conjunto de pontos de controle que parametrizam uma trajetória (ou seja, uma B-spline), fornecendo sua posição 3D em instantes de tempo arbitrários. Treinamos o modelo Trace Anything em dados 4D em grande escala, incluindo dados de nossa nova plataforma, e nossos experimentos demonstram que: (i) o Trace Anything alcança desempenho de ponta em nosso novo benchmark para estimação de campo de trajetória e se sai de forma competitiva em benchmarks estabelecidos de rastreamento de pontos; (ii) oferece ganhos significativos de eficiência graças ao seu paradigma de passagem única, sem exigir otimização iterativa ou estimadores auxiliares; e (iii) exibe habilidades emergentes, incluindo manipulação condicionada a objetivos, previsão de movimento e fusão espaço-temporal. Página do projeto: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling,
understanding, and predicting dynamics in videos. The atomic unit of a video,
the pixel, traces a continuous 3D trajectory over time, serving as the
primitive element of dynamics. Based on this principle, we propose representing
any video as a Trajectory Field: a dense mapping that assigns a continuous 3D
trajectory function of time to each pixel in every frame. With this
representation, we introduce Trace Anything, a neural network that predicts the
entire trajectory field in a single feed-forward pass. Specifically, for each
pixel in each frame, our model predicts a set of control points that
parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at
arbitrary query time instants. We trained the Trace Anything model on
large-scale 4D data, including data from our new platform, and our experiments
demonstrate that: (i) Trace Anything achieves state-of-the-art performance on
our new benchmark for trajectory field estimation and performs competitively on
established point-tracking benchmarks; (ii) it offers significant efficiency
gains thanks to its one-pass paradigm, without requiring iterative optimization
or auxiliary estimators; and (iii) it exhibits emergent abilities, including
goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion.
Project page: https://trace-anything.github.io/.