Segmenteren van Beweging in Video's
Segment Any Motion in Videos
March 28, 2025
Auteurs: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Samenvatting
Het segmenteren van bewegende objecten is een cruciale taak voor het verkrijgen van een hoog niveau van begrip van visuele scènes en heeft talrijke toepassingen. Mensen kunnen moeiteloos bewegende objecten in video's segmenteren. Eerder werk heeft grotendeels vertrouwd op optische stroming om bewegingsinformatie te leveren; deze aanpak resulteert echter vaak in onvolmaakte voorspellingen vanwege uitdagingen zoals gedeeltelijke beweging, complexe vervormingen, bewegingsonscherpte en achtergrondafleidingen. Wij stellen een nieuwe aanpak voor voor het segmenteren van bewegende objecten die langetermijn trajectoriebewegingsinformatie combineert met DINO-gebaseerde semantische kenmerken en SAM2 benut voor pixel-niveau maskerdensificatie via een iteratieve promptstrategie. Ons model maakt gebruik van Spatio-Temporele Trajectorie Aandacht en Beweging-Semantiek Ontkoppelde Embedding om beweging te prioriteren terwijl semantische ondersteuning wordt geïntegreerd. Uitgebreide tests op diverse datasets tonen state-of-the-art prestaties aan, met uitmuntende resultaten in uitdagende scenario's en fijnmazige segmentatie van meerdere objecten. Onze code is beschikbaar op https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary