Segmenter tout mouvement dans les vidéos

papers.abstract

La segmentation d'objets en mouvement est une tâche cruciale pour parvenir à une compréhension approfondie des scènes visuelles et possède de nombreuses applications en aval. Les humains peuvent segmenter sans effort les objets en mouvement dans les vidéos. Les travaux précédents se sont largement appuyés sur le flux optique pour fournir des indices de mouvement ; cependant, cette approche aboutit souvent à des prédictions imparfaites en raison de défis tels que le mouvement partiel, les déformations complexes, le flou de mouvement et les distractions de l'arrière-plan. Nous proposons une nouvelle approche pour la segmentation d'objets en mouvement qui combine des indices de mouvement de trajectoire à long terme avec des caractéristiques sémantiques basées sur DINO et exploite SAM2 pour la densification de masques au niveau des pixels grâce à une stratégie d'invitation itérative. Notre modèle utilise une Attention de Trajectoire Spatio-Temporelle et un Encodage Découplé Mouvement-Sémantique pour prioriser le mouvement tout en intégrant un support sémantique. Des tests approfondis sur divers ensembles de données démontrent des performances de pointe, excellant dans des scénarios difficiles et dans la segmentation fine de multiples objets. Notre code est disponible à l'adresse https://motion-seg.github.io/.

English

Moving object segmentation is a crucial task for achieving a high-level understanding of visual scenes and has numerous downstream applications. Humans can effortlessly segment moving objects in videos. Previous work has largely relied on optical flow to provide motion cues; however, this approach often results in imperfect predictions due to challenges such as partial motion, complex deformations, motion blur and background distractions. We propose a novel approach for moving object segmentation that combines long-range trajectory motion cues with DINO-based semantic features and leverages SAM2 for pixel-level mask densification through an iterative prompting strategy. Our model employs Spatio-Temporal Trajectory Attention and Motion-Semantic Decoupled Embedding to prioritize motion while integrating semantic support. Extensive testing on diverse datasets demonstrates state-of-the-art performance, excelling in challenging scenarios and fine-grained segmentation of multiple objects. Our code is available at https://motion-seg.github.io/.

Segmenter tout mouvement dans les vidéos

Segment Any Motion in Videos

papers.abstract

Support