MOVE: Bewegungsgestützte Few-Shot Videoobjektsegmentierung
MOVE: Motion-Guided Few-Shot Video Object Segmentation
July 29, 2025
papers.authors: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI
papers.abstract
Diese Arbeit befasst sich mit bewegungsgesteuerter Few-Shot-Videoobjektsegmentierung (FSVOS), die darauf abzielt, dynamische Objekte in Videos basierend auf wenigen annotierten Beispielen mit denselben Bewegungsmustern zu segmentieren. Bisherige FSVOS-Datensätze und Methoden konzentrieren sich typischerweise auf Objektkategorien, die statische Attribute darstellen und die reichhaltigen zeitlichen Dynamiken in Videos ignorieren, was ihre Anwendung in Szenarien, die ein Verständnis von Bewegung erfordern, einschränkt. Um diese Lücke zu schließen, führen wir MOVE ein, einen groß angelegten Datensatz, der speziell für bewegungsgesteuerte FSVOS entwickelt wurde. Basierend auf MOVE evaluieren wir umfassend 6 state-of-the-art Methoden aus 3 verschiedenen verwandten Aufgaben in 2 experimentellen Settings. Unsere Ergebnisse zeigen, dass aktuelle Methoden Schwierigkeiten haben, bewegungsgesteuerte FSVOS zu bewältigen, was uns dazu veranlasst, die damit verbundenen Herausforderungen zu analysieren und eine Baseline-Methode, das Decoupled Motion Appearance Network (DMA), vorzuschlagen. Experimente demonstrieren, dass unser Ansatz eine überlegene Leistung im Few-Shot-Bewegungsverständnis erzielt und somit eine solide Grundlage für zukünftige Forschung in dieser Richtung schafft.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS),
which aims to segment dynamic objects in videos based on a few annotated
examples with the same motion patterns. Existing FSVOS datasets and methods
typically focus on object categories, which are static attributes that ignore
the rich temporal dynamics in videos, limiting their application in scenarios
requiring motion understanding. To fill this gap, we introduce MOVE, a
large-scale dataset specifically designed for motion-guided FSVOS. Based on
MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different
related tasks across 2 experimental settings. Our results reveal that current
methods struggle to address motion-guided FSVOS, prompting us to analyze the
associated challenges and propose a baseline method, Decoupled Motion
Appearance Network (DMA). Experiments demonstrate that our approach achieves
superior performance in few shot motion understanding, establishing a solid
foundation for future research in this direction.