MOVE: Bewegingsgestuurde Few-Shot Video Object Segmentatie
MOVE: Motion-Guided Few-Shot Video Object Segmentation
July 29, 2025
Auteurs: Kaining Ying, Hengrui Hu, Henghui Ding
cs.AI
Samenvatting
Dit werk richt zich op motion-guided few-shot video object segmentation (FSVOS),
wat als doel heeft dynamische objecten in video's te segmenteren op basis van een
paar geannoteerde voorbeelden met dezelfde bewegingspatronen. Bestaande FSVOS-datasets
en -methoden richten zich doorgaans op objectcategorieën, wat statische attributen zijn
die de rijke temporele dynamiek in video's negeren, waardoor hun toepassing beperkt wordt
in scenario's die bewegingsbegrip vereisen. Om deze leemte op te vullen, introduceren we
MOVE, een grootschalige dataset die specifiek is ontworpen voor motion-guided FSVOS.
Op basis van MOVE evalueren we uitgebreid 6 state-of-the-art methoden uit 3 verschillende
gerelateerde taken in 2 experimentele settings. Onze resultaten laten zien dat huidige
methoden moeite hebben met motion-guided FSVOS, wat ons aanzet tot een analyse van de
bijbehorende uitdagingen en het voorstellen van een baseline-methode, het Decoupled Motion
Appearance Network (DMA). Experimenten tonen aan dat onze aanpak superieure prestaties
levert in few-shot bewegingsbegrip, wat een solide basis legt voor toekomstig onderzoek
in deze richting.
English
This work addresses motion-guided few-shot video object segmentation (FSVOS),
which aims to segment dynamic objects in videos based on a few annotated
examples with the same motion patterns. Existing FSVOS datasets and methods
typically focus on object categories, which are static attributes that ignore
the rich temporal dynamics in videos, limiting their application in scenarios
requiring motion understanding. To fill this gap, we introduce MOVE, a
large-scale dataset specifically designed for motion-guided FSVOS. Based on
MOVE, we comprehensively evaluate 6 state-of-the-art methods from 3 different
related tasks across 2 experimental settings. Our results reveal that current
methods struggle to address motion-guided FSVOS, prompting us to analyze the
associated challenges and propose a baseline method, Decoupled Motion
Appearance Network (DMA). Experiments demonstrate that our approach achieves
superior performance in few shot motion understanding, establishing a solid
foundation for future research in this direction.