Segmentierung beliebiger Bewegungen in Videos
Segment Any Motion in Videos
March 28, 2025
Autoren: Nan Huang, Wenzhao Zheng, Chenfeng Xu, Kurt Keutzer, Shanghang Zhang, Angjoo Kanazawa, Qianqian Wang
cs.AI
Zusammenfassung
Die Segmentierung bewegter Objekte ist eine entscheidende Aufgabe, um ein tiefgreifendes Verständnis visueller Szenen zu erreichen, und hat zahlreiche nachgelagerte Anwendungen. Menschen können bewegte Objekte in Videos mühelos segmentieren. Bisherige Arbeiten haben sich weitgehend auf optischen Fluss verlassen, um Bewegungshinweise zu liefern; dieser Ansatz führt jedoch oft zu unvollkommenen Vorhersagen aufgrund von Herausforderungen wie Teilbewegungen, komplexen Verformungen, Bewegungsunschärfe und Hintergrundablenkungen. Wir schlagen einen neuartigen Ansatz für die Segmentierung bewegter Objekte vor, der langreichweitige Trajektorien-Bewegungshinweise mit DINO-basierten semantischen Merkmalen kombiniert und SAM2 für die pixelgenaue Maskenverdichtung durch eine iterative Prompting-Strategie nutzt. Unser Modell verwendet räumlich-zeitliche Trajektorien-Aufmerksamkeit und eine entkoppelte Einbettung von Bewegung und Semantik, um Bewegung zu priorisieren und gleichzeitig semantische Unterstützung zu integrieren. Umfangreiche Tests auf verschiedenen Datensätzen demonstrieren state-of-the-art Leistung, insbesondere in anspruchsvollen Szenarien und bei der feinkörnigen Segmentierung mehrerer Objekte. Unser Code ist verfügbar unter https://motion-seg.github.io/.
English
Moving object segmentation is a crucial task for achieving a high-level
understanding of visual scenes and has numerous downstream applications. Humans
can effortlessly segment moving objects in videos. Previous work has largely
relied on optical flow to provide motion cues; however, this approach often
results in imperfect predictions due to challenges such as partial motion,
complex deformations, motion blur and background distractions. We propose a
novel approach for moving object segmentation that combines long-range
trajectory motion cues with DINO-based semantic features and leverages SAM2 for
pixel-level mask densification through an iterative prompting strategy. Our
model employs Spatio-Temporal Trajectory Attention and Motion-Semantic
Decoupled Embedding to prioritize motion while integrating semantic support.
Extensive testing on diverse datasets demonstrates state-of-the-art
performance, excelling in challenging scenarios and fine-grained segmentation
of multiple objects. Our code is available at https://motion-seg.github.io/.Summary
AI-Generated Summary