Segmentar Qualquer Movimento em Vídeos

Resumo

A segmentação de objetos em movimento é uma tarefa crucial para alcançar uma compreensão de alto nível de cenas visuais e possui inúmeras aplicações subsequentes. Os seres humanos conseguem segmentar objetos em movimento em vídeos com facilidade. Trabalhos anteriores dependiam amplamente do fluxo óptico para fornecer pistas de movimento; no entanto, essa abordagem frequentemente resulta em previsões imperfeitas devido a desafios como movimento parcial, deformações complexas, desfoque de movimento e distrações de fundo. Propomos uma nova abordagem para a segmentação de objetos em movimento que combina pistas de movimento de trajetórias de longo alcance com características semânticas baseadas em DINO e utiliza o SAM2 para a densificação de máscaras em nível de pixel por meio de uma estratégia iterativa de prompts. Nosso modelo emprega Atenção de Trajetória Espaço-Temporal e Incorporação Desacoplada de Movimento-Semântica para priorizar o movimento enquanto integra suporte semântico. Testes extensivos em diversos conjuntos de dados demonstram desempenho de ponta, destacando-se em cenários desafiadores e na segmentação refinada de múltiplos objetos. Nosso código está disponível em https://motion-seg.github.io/.

English

Moving object segmentation is a crucial task for achieving a high-level understanding of visual scenes and has numerous downstream applications. Humans can effortlessly segment moving objects in videos. Previous work has largely relied on optical flow to provide motion cues; however, this approach often results in imperfect predictions due to challenges such as partial motion, complex deformations, motion blur and background distractions. We propose a novel approach for moving object segmentation that combines long-range trajectory motion cues with DINO-based semantic features and leverages SAM2 for pixel-level mask densification through an iterative prompting strategy. Our model employs Spatio-Temporal Trajectory Attention and Motion-Semantic Decoupled Embedding to prioritize motion while integrating semantic support. Extensive testing on diverse datasets demonstrates state-of-the-art performance, excelling in challenging scenarios and fine-grained segmentation of multiple objects. Our code is available at https://motion-seg.github.io/.

Segmentar Qualquer Movimento em Vídeos

Segment Any Motion in Videos

Resumo

Support