ChatPaper.aiChatPaper

Trace Anything : Représenter n'importe quelle vidéo en 4D via des champs de trajectoire

Trace Anything: Representing Any Video in 4D via Trajectory Fields

October 15, 2025
papers.authors: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI

papers.abstract

La représentation spatio-temporelle efficace est fondamentale pour modéliser, comprendre et prédire les dynamiques dans les vidéos. L'unité atomique d'une vidéo, le pixel, trace une trajectoire 3D continue dans le temps, servant d'élément primitif des dynamiques. Sur la base de ce principe, nous proposons de représenter toute vidéo comme un Champ de Trajectoire : une cartographie dense qui assigne une fonction de trajectoire 3D continue dans le temps à chaque pixel de chaque image. Avec cette représentation, nous introduisons Trace Anything, un réseau de neurones qui prédit l'intégralité du champ de trajectoire en une seule passe avant. Plus précisément, pour chaque pixel de chaque image, notre modèle prédit un ensemble de points de contrôle qui paramétrisent une trajectoire (c'est-à-dire une B-spline), donnant sa position 3D à des instants de requête arbitraires. Nous avons entraîné le modèle Trace Anything sur des données 4D à grande échelle, y compris des données provenant de notre nouvelle plateforme, et nos expériences démontrent que : (i) Trace Anything atteint des performances de pointe sur notre nouveau benchmark pour l'estimation des champs de trajectoire et se comporte de manière compétitive sur les benchmarks établis de suivi de points ; (ii) il offre des gains d'efficacité significatifs grâce à son paradigme en une passe, sans nécessiter d'optimisation itérative ou d'estimateurs auxiliaires ; et (iii) il présente des capacités émergentes, incluant la manipulation conditionnée par un objectif, la prévision de mouvement et la fusion spatio-temporelle. Page du projet : https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling, understanding, and predicting dynamics in videos. The atomic unit of a video, the pixel, traces a continuous 3D trajectory over time, serving as the primitive element of dynamics. Based on this principle, we propose representing any video as a Trajectory Field: a dense mapping that assigns a continuous 3D trajectory function of time to each pixel in every frame. With this representation, we introduce Trace Anything, a neural network that predicts the entire trajectory field in a single feed-forward pass. Specifically, for each pixel in each frame, our model predicts a set of control points that parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at arbitrary query time instants. We trained the Trace Anything model on large-scale 4D data, including data from our new platform, and our experiments demonstrate that: (i) Trace Anything achieves state-of-the-art performance on our new benchmark for trajectory field estimation and performs competitively on established point-tracking benchmarks; (ii) it offers significant efficiency gains thanks to its one-pass paradigm, without requiring iterative optimization or auxiliary estimators; and (iii) it exhibits emergent abilities, including goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion. Project page: https://trace-anything.github.io/.
PDF302October 16, 2025