Segmentar Qualquer Movimento em Vídeos
Segment Any Motion in Videos
March 28, 2025
Autores: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Resumo
A segmentação de objetos em movimento é uma tarefa crucial para alcançar uma compreensão de alto nível de cenas visuais e possui inúmeras aplicações subsequentes. Os seres humanos conseguem segmentar objetos em movimento em vídeos com facilidade. Trabalhos anteriores dependiam amplamente do fluxo óptico para fornecer pistas de movimento; no entanto, essa abordagem frequentemente resulta em previsões imperfeitas devido a desafios como movimento parcial, deformações complexas, desfoque de movimento e distrações de fundo. Propomos uma nova abordagem para a segmentação de objetos em movimento que combina pistas de movimento de trajetórias de longo alcance com características semânticas baseadas em DINO e utiliza o SAM2 para a densificação de máscaras em nível de pixel por meio de uma estratégia iterativa de prompts. Nosso modelo emprega Atenção de Trajetória Espaço-Temporal e Incorporação Desacoplada de Movimento-Semântica para priorizar o movimento enquanto integra suporte semântico. Testes extensivos em diversos conjuntos de dados demonstram desempenho de ponta, destacando-se em cenários desafiadores e na segmentação refinada de múltiplos objetos. Nosso código está disponível em https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary