Segmentierung beliebiger Bewegungen in Videos

papers.abstract

Die Segmentierung bewegter Objekte ist eine entscheidende Aufgabe, um ein tiefgreifendes Verständnis visueller Szenen zu erreichen, und hat zahlreiche nachgelagerte Anwendungen. Menschen können bewegte Objekte in Videos mühelos segmentieren. Bisherige Arbeiten haben sich weitgehend auf optischen Fluss verlassen, um Bewegungshinweise zu liefern; dieser Ansatz führt jedoch oft zu unvollkommenen Vorhersagen aufgrund von Herausforderungen wie Teilbewegungen, komplexen Verformungen, Bewegungsunschärfe und Hintergrundablenkungen. Wir schlagen einen neuartigen Ansatz für die Segmentierung bewegter Objekte vor, der langreichweitige Trajektorien-Bewegungshinweise mit DINO-basierten semantischen Merkmalen kombiniert und SAM2 für die pixelgenaue Maskenverdichtung durch eine iterative Prompting-Strategie nutzt. Unser Modell verwendet räumlich-zeitliche Trajektorien-Aufmerksamkeit und eine entkoppelte Einbettung von Bewegung und Semantik, um Bewegung zu priorisieren und gleichzeitig semantische Unterstützung zu integrieren. Umfangreiche Tests auf verschiedenen Datensätzen demonstrieren state-of-the-art Leistung, insbesondere in anspruchsvollen Szenarien und bei der feinkörnigen Segmentierung mehrerer Objekte. Unser Code ist verfügbar unter https://motion-seg.github.io/.

English

Moving object segmentation is a crucial task for achieving a high-level understanding of visual scenes and has numerous downstream applications. Humans can effortlessly segment moving objects in videos. Previous work has largely relied on optical flow to provide motion cues; however, this approach often results in imperfect predictions due to challenges such as partial motion, complex deformations, motion blur and background distractions. We propose a novel approach for moving object segmentation that combines long-range trajectory motion cues with DINO-based semantic features and leverages SAM2 for pixel-level mask densification through an iterative prompting strategy. Our model employs Spatio-Temporal Trajectory Attention and Motion-Semantic Decoupled Embedding to prioritize motion while integrating semantic support. Extensive testing on diverse datasets demonstrates state-of-the-art performance, excelling in challenging scenarios and fine-grained segmentation of multiple objects. Our code is available at https://motion-seg.github.io/.

Segmentierung beliebiger Bewegungen in Videos

Segment Any Motion in Videos

papers.abstract

Support