ChatPaper.aiChatPaper

SpatialTracker: Rastreando Qualquer Pixel 2D no Espaço 3D

SpatialTracker: Tracking Any 2D Pixels in 3D Space

April 5, 2024
Autores: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI

Resumo

Recuperar o movimento denso e de longo alcance de pixels em vídeos é um problema desafiador. Parte da dificuldade surge do processo de projeção 3D para 2D, levando a oclusões e descontinuidades no domínio do movimento 2D. Embora o movimento 2D possa ser complexo, postulamos que o movimento 3D subjacente pode frequentemente ser simples e de baixa dimensionalidade. Neste trabalho, propomos estimar trajetórias de pontos no espaço 3D para mitigar os problemas causados pela projeção de imagem. Nosso método, denominado SpatialTracker, eleva pixels 2D para 3D usando estimadores de profundidade monocular, representa o conteúdo 3D de cada quadro de forma eficiente usando uma representação triplanar e realiza atualizações iterativas usando um transformador para estimar trajetórias 3D. O rastreamento em 3D nos permite aproveitar restrições "as-rigid-as-possible" (ARAP) enquanto simultaneamente aprendemos uma incorporação de rigidez que agrupa pixels em diferentes partes rígidas. Uma avaliação extensa mostra que nossa abordagem alcança desempenho de rastreamento de última geração tanto qualitativa quanto quantitativamente, particularmente em cenários desafiadores, como rotação fora do plano.
English
Recovering dense and long-range pixel motion in videos is a challenging problem. Part of the difficulty arises from the 3D-to-2D projection process, leading to occlusions and discontinuities in the 2D motion domain. While 2D motion can be intricate, we posit that the underlying 3D motion can often be simple and low-dimensional. In this work, we propose to estimate point trajectories in 3D space to mitigate the issues caused by image projection. Our method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth estimators, represents the 3D content of each frame efficiently using a triplane representation, and performs iterative updates using a transformer to estimate 3D trajectories. Tracking in 3D allows us to leverage as-rigid-as-possible (ARAP) constraints while simultaneously learning a rigidity embedding that clusters pixels into different rigid parts. Extensive evaluation shows that our approach achieves state-of-the-art tracking performance both qualitatively and quantitatively, particularly in challenging scenarios such as out-of-plane rotation.
PDF251December 15, 2024