SpatialTracker: 3D空間における任意の2Dピクセルの追跡
SpatialTracker: Tracking Any 2D Pixels in 3D Space
April 5, 2024
著者: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI
要旨
ビデオにおける高密度かつ長距離のピクセル運動を復元することは困難な課題である。この難しさの一部は、3Dから2Dへの投影プロセスに起因し、2D運動領域におけるオクルージョンや不連続性を引き起こす。2D運動は複雑になり得るが、我々はその基盤となる3D運動がしばしば単純で低次元であると仮定する。本研究では、画像投影によって生じる問題を緩和するため、3D空間における点軌跡を推定する手法を提案する。我々の手法「SpatialTracker」は、単眼深度推定器を用いて2Dピクセルを3Dにリフトし、各フレームの3Dコンテンツをトライプレーン表現で効率的に表現し、トランスフォーマーを用いた反復的更新によって3D軌跡を推定する。3Dでの追跡により、可能な限り剛体に近い(ARAP)制約を活用すると同時に、異なる剛体部分にピクセルをクラスタリングする剛性埋め込みを学習する。広範な評価により、本手法が特に平面外回転などの困難なシナリオにおいて、質的・量的に最先端の追跡性能を達成することが示された。
English
Recovering dense and long-range pixel motion in videos is a challenging
problem. Part of the difficulty arises from the 3D-to-2D projection process,
leading to occlusions and discontinuities in the 2D motion domain. While 2D
motion can be intricate, we posit that the underlying 3D motion can often be
simple and low-dimensional. In this work, we propose to estimate point
trajectories in 3D space to mitigate the issues caused by image projection. Our
method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth
estimators, represents the 3D content of each frame efficiently using a
triplane representation, and performs iterative updates using a transformer to
estimate 3D trajectories. Tracking in 3D allows us to leverage
as-rigid-as-possible (ARAP) constraints while simultaneously learning a
rigidity embedding that clusters pixels into different rigid parts. Extensive
evaluation shows that our approach achieves state-of-the-art tracking
performance both qualitatively and quantitatively, particularly in challenging
scenarios such as out-of-plane rotation.Summary
AI-Generated Summary