ChatPaper.aiChatPaper

Rastrear Cualquier Cosa: Representación de Cualquier Video en 4D mediante Campos de Trayectoria

Trace Anything: Representing Any Video in 4D via Trajectory Fields

October 15, 2025
Autores: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI

Resumen

La representación espacio-temporal efectiva es fundamental para modelar, comprender y predecir la dinámica en videos. La unidad básica de un video, el píxel, traza una trayectoria 3D continua a lo largo del tiempo, sirviendo como el elemento primitivo de la dinámica. Basándonos en este principio, proponemos representar cualquier video como un Campo de Trayectorias: un mapeo denso que asigna una función de trayectoria 3D continua en el tiempo a cada píxel en cada fotograma. Con esta representación, presentamos Trace Anything, una red neuronal que predice todo el campo de trayectorias en un único paso de avance. Específicamente, para cada píxel en cada fotograma, nuestro modelo predice un conjunto de puntos de control que parametriza una trayectoria (es decir, un B-spline), obteniendo su posición 3D en instantes de tiempo arbitrarios. Entrenamos el modelo Trace Anything con datos 4D a gran escala, incluyendo datos de nuestra nueva plataforma, y nuestros experimentos demuestran que: (i) Trace Anything alcanza un rendimiento de vanguardia en nuestro nuevo punto de referencia para la estimación de campos de trayectorias y compite favorablemente en puntos de referencia establecidos de seguimiento de puntos; (ii) ofrece ganancias significativas en eficiencia gracias a su paradigma de un solo paso, sin requerir optimización iterativa ni estimadores auxiliares; y (iii) exhibe habilidades emergentes, incluyendo manipulación condicionada por objetivos, predicción de movimiento y fusión espacio-temporal. Página del proyecto: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling, understanding, and predicting dynamics in videos. The atomic unit of a video, the pixel, traces a continuous 3D trajectory over time, serving as the primitive element of dynamics. Based on this principle, we propose representing any video as a Trajectory Field: a dense mapping that assigns a continuous 3D trajectory function of time to each pixel in every frame. With this representation, we introduce Trace Anything, a neural network that predicts the entire trajectory field in a single feed-forward pass. Specifically, for each pixel in each frame, our model predicts a set of control points that parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at arbitrary query time instants. We trained the Trace Anything model on large-scale 4D data, including data from our new platform, and our experiments demonstrate that: (i) Trace Anything achieves state-of-the-art performance on our new benchmark for trajectory field estimation and performs competitively on established point-tracking benchmarks; (ii) it offers significant efficiency gains thanks to its one-pass paradigm, without requiring iterative optimization or auxiliary estimators; and (iii) it exhibits emergent abilities, including goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion. Project page: https://trace-anything.github.io/.
PDF302October 16, 2025