Segmenter tout mouvement dans les vidéos
Segment Any Motion in Videos
March 28, 2025
Auteurs: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Résumé
La segmentation d'objets en mouvement est une tâche cruciale pour parvenir à une compréhension approfondie des scènes visuelles et possède de nombreuses applications en aval. Les humains peuvent segmenter sans effort les objets en mouvement dans les vidéos. Les travaux précédents se sont largement appuyés sur le flux optique pour fournir des indices de mouvement ; cependant, cette approche aboutit souvent à des prédictions imparfaites en raison de défis tels que le mouvement partiel, les déformations complexes, le flou de mouvement et les distractions de l'arrière-plan. Nous proposons une nouvelle approche pour la segmentation d'objets en mouvement qui combine des indices de mouvement de trajectoire à long terme avec des caractéristiques sémantiques basées sur DINO et exploite SAM2 pour la densification de masques au niveau des pixels grâce à une stratégie d'invitation itérative. Notre modèle utilise une Attention de Trajectoire Spatio-Temporelle et un Encodage Découplé Mouvement-Sémantique pour prioriser le mouvement tout en intégrant un support sémantique. Des tests approfondis sur divers ensembles de données démontrent des performances de pointe, excellant dans des scénarios difficiles et dans la segmentation fine de multiples objets. Notre code est disponible à l'adresse https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary