ChatPaper.aiChatPaper

Trace Anything: Rappresentare qualsiasi video in 4D tramite Campi di Traiettoria

Trace Anything: Representing Any Video in 4D via Trajectory Fields

October 15, 2025
Autori: Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang
cs.AI

Abstract

Una rappresentazione spazio-temporale efficace è fondamentale per modellare, comprendere e prevedere le dinamiche nei video. L'unità atomica di un video, il pixel, traccia una traiettoria 3D continua nel tempo, fungendo da elemento primitivo delle dinamiche. Basandoci su questo principio, proponiamo di rappresentare qualsiasi video come un Campo di Traiettoria: una mappatura densa che assegna una funzione continua di traiettoria 3D nel tempo a ciascun pixel in ogni fotogramma. Con questa rappresentazione, introduciamo Trace Anything, una rete neurale che predice l'intero campo di traiettoria in un unico passaggio in avanti. Nello specifico, per ogni pixel in ciascun fotogramma, il nostro modello predice un insieme di punti di controllo che parametrizzano una traiettoria (ad esempio, una B-spline), restituendo la sua posizione 3D in istanti di tempo arbitrari. Abbiamo addestrato il modello Trace Anything su dati 4D su larga scala, inclusi i dati della nostra nuova piattaforma, e i nostri esperimenti dimostrano che: (i) Trace Anything raggiunge prestazioni all'avanguardia nel nostro nuovo benchmark per la stima del campo di traiettoria e si comporta in modo competitivo nei benchmark consolidati per il tracciamento dei punti; (ii) offre significativi guadagni in termini di efficienza grazie al suo paradigma a passaggio singolo, senza richiedere ottimizzazione iterativa o stimatori ausiliari; e (iii) mostra abilità emergenti, tra cui manipolazione condizionata agli obiettivi, previsione del movimento e fusione spazio-temporale. Pagina del progetto: https://trace-anything.github.io/.
English
Effective spatio-temporal representation is fundamental to modeling, understanding, and predicting dynamics in videos. The atomic unit of a video, the pixel, traces a continuous 3D trajectory over time, serving as the primitive element of dynamics. Based on this principle, we propose representing any video as a Trajectory Field: a dense mapping that assigns a continuous 3D trajectory function of time to each pixel in every frame. With this representation, we introduce Trace Anything, a neural network that predicts the entire trajectory field in a single feed-forward pass. Specifically, for each pixel in each frame, our model predicts a set of control points that parameterizes a trajectory (i.e., a B-spline), yielding its 3D position at arbitrary query time instants. We trained the Trace Anything model on large-scale 4D data, including data from our new platform, and our experiments demonstrate that: (i) Trace Anything achieves state-of-the-art performance on our new benchmark for trajectory field estimation and performs competitively on established point-tracking benchmarks; (ii) it offers significant efficiency gains thanks to its one-pass paradigm, without requiring iterative optimization or auxiliary estimators; and (iii) it exhibits emergent abilities, including goal-conditioned manipulation, motion forecasting, and spatio-temporal fusion. Project page: https://trace-anything.github.io/.
PDF302October 16, 2025