ChatPaper.aiChatPaper

SpatialTracker: Monitoraggio di qualsiasi pixel 2D nello spazio 3D

SpatialTracker: Tracking Any 2D Pixels in 3D Space

April 5, 2024
Autori: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI

Abstract

Il recupero del movimento denso e a lungo raggio dei pixel nei video è un problema complesso. Parte della difficoltà deriva dal processo di proiezione da 3D a 2D, che porta a occlusioni e discontinuità nel dominio del movimento bidimensionale. Sebbene il movimento 2D possa essere intricato, ipotizziamo che il movimento 3D sottostante possa spesso essere semplice e a bassa dimensionalità. In questo lavoro, proponiamo di stimare le traiettorie dei punti nello spazio 3D per mitigare i problemi causati dalla proiezione delle immagini. Il nostro metodo, denominato SpatialTracker, eleva i pixel 2D a 3D utilizzando stimatori di profondità monoculare, rappresenta il contenuto 3D di ogni fotogramma in modo efficiente mediante una rappresentazione triplanare ed esegue aggiornamenti iterativi utilizzando un transformer per stimare le traiettorie 3D. Il tracciamento in 3D ci consente di sfruttare vincoli "as-rigid-as-possible" (ARAP) mentre apprendiamo simultaneamente un embedding di rigidità che raggruppa i pixel in diverse parti rigide. Una valutazione estensiva dimostra che il nostro approccio raggiunge prestazioni di tracciamento all'avanguardia sia qualitativamente che quantitativamente, in particolare in scenari complessi come la rotazione fuori piano.
English
Recovering dense and long-range pixel motion in videos is a challenging problem. Part of the difficulty arises from the 3D-to-2D projection process, leading to occlusions and discontinuities in the 2D motion domain. While 2D motion can be intricate, we posit that the underlying 3D motion can often be simple and low-dimensional. In this work, we propose to estimate point trajectories in 3D space to mitigate the issues caused by image projection. Our method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth estimators, represents the 3D content of each frame efficiently using a triplane representation, and performs iterative updates using a transformer to estimate 3D trajectories. Tracking in 3D allows us to leverage as-rigid-as-possible (ARAP) constraints while simultaneously learning a rigidity embedding that clusters pixels into different rigid parts. Extensive evaluation shows that our approach achieves state-of-the-art tracking performance both qualitatively and quantitatively, particularly in challenging scenarios such as out-of-plane rotation.
PDF251December 15, 2024